搜索引擎

搜索引擎的处理技术

鸟吞小石子可以磨食品(仄), 兽畏火、人养火乃有文明(平)。

 与太阳同起同睡的有福了(仄), 可我赞美人间的第一盏灯(平)。

                                                                                                 —–卞之林《第一盏灯》

      检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

       通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。

搜索引擎的处理技术

       能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:

       1、按频次排定次序,通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合乎常理的解决方案。
       2、按页面被访问度排序在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
       3、二次检索进一步净化 ( 比flne ) 结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。

       由于搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。

建立索引

       建立索引     蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。在一些SEO资料里,“预处理”也被称为“索引”,这是因为索引是预处理最主要内容。
       1、提取文字。2、中文分词。3、去停止词。4、消除噪声。5、去重。6、正向索引。7、倒排索引。8、链接关系计算。9、特殊文件处理。10、质量判断。