搜索引擎

暗网抓取 Deep Web Crawling

        物理学研究表明,在目前宇宙所有物质的总体之量汇总,星系等可见物质只占了其中的20%,不可探测的暗物质则占据了总质量约80%。暗网抓取(Deep Web Crawling)互联网中的暗网可与宇宙中的暗物质相类比,而其所占网页的比例,更是远大于暗物质占宇宙质量的总比,大约百倍于目前的明网Surfacing Web 网页。目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面,搜索引擎爬虫依赖页面中的链接关系发现新的页面,但很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,一些大型网站中的数据,很难有显示链接指向数据库内的记录,往往是服务网站提供组合查询界面,只有用户按照需求输入查询后,才可能获得相关数据。所以,常规的爬虫无法索引这些数据内容,这就是暗网的命名由来。

暗网抓取 Deep Web Crawling

         为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,这类爬虫被称做暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时便可利用这些数据,增加信息覆盖程度。早在几年前,大型的搜索引擎服务提供商都将暗网挖掘作为重要研究方向,因为这直接关系到索引量的大小。在此领域的技术差异,将直接体现在搜索结果的全面性上,自然是竞争对手之间的必争之地。谷歌也是早在几年前就将其作为重点研发方向,而那时的度娘“阿拉丁计划”目的也在于此。

暗网抓取

          暗网抓取(Deep Web Crawling)垂直网站提供的搜索界面,往往需要人工选择或者填写内容,比如机票搜索需要选择出发地、到达地和日期时间,图书搜索需要指出书名或作者。而暗网爬虫为能够挖掘数据库的记录,必须模拟人的行为,填写内容并提交表单。

暗网

          对于暗网爬虫来说,其技术挑战有两点:一是查询组合太多,如果一一组合遍历,那么会给被访问网站造成太大压力,所以如何精心组合查询选项是个难点;第二有的查询是文本框,比如图书搜索中需要输入书名,爬虫怎样才能够填入合适的内容?颇具有一定的挑战性。

阿拉丁计划

        阿拉丁计划是新一代搜索引擎。用阿拉丁计划命名,寓含着百度的这个平台可以像神灯那样帮助用户实现最便捷地获取信息的愿望。阿拉丁是搜索引擎公司百度推出的一个通用开放平台,它将接口开放给独特信息数据的拥有者,从而解决现有搜索引擎无法抓取和检索的暗网信息。阿拉丁计划旨在超越现有Web内容的限制,对包括众多未纳入搜索引擎检索体系的“暗网”在内的所有信息进行更深一步的分析、融合、处理,以使这些信息能最富有效率地被用户通过搜索引擎进行检索,从而逐步实现“只在一个最为简单的搜索框里面,蕴藏了全人类最为丰富多彩的信息世界!大大增加对用户有用信息的可读性。即所谓照亮“暗海”。为什么要推出?能被搜索引擎检索到的信。