搜索引擎

索引技术是搜索引擎的核心技术之一

芦花丛中一扁舟,俊杰俄从此地游。

义士若能知此理,反躬难逃可无忧。


          索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。   

Index-technology

  索引多采用Non—clustered方法,该技术和语言文字的理解有很大的关系,具体有如下几点:
       1、存储语法库,和词汇库配合分出句子中的词汇;
       2、存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
       3、词汇宽,应可划分为不同的专业库,以便于处理专业文献;
       4、对无法分词的句子,把每个字当作词来处理。

  聚集索引是指数据库表行中数据的物理顺序与键值的逻辑(索引)顺序相同。一个表只能有一个聚集索引,因为一个表的物理顺序只有一种情况,所以,对应的聚集索引只能有一个。如果某索引不是聚集索引,则表中的行物理顺序与索引顺序不匹配,与非聚集索引相同,聚集索引有着更快的检索速度。
       非聚集索引是一种索引,该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同。

索引相关图

      索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
       不同的搜索引擎系统可能采用不尽相同的标引方法。例如:Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。

索引相关

【索引】是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。如果想按特定职员的姓来查找他或她,则与在表中搜索所有的行相比,索引有助于更快地获取信息。
索引的一个主要目的就是加快检索表中数据的方法,亦即能协助信息搜索者尽快的找到符合限制条件的记录ID的辅助数据结构。
      1、搜索码。它表示的是记录各种字符段的一个集合,它可以是一个或者是多个字符段的任意序列组合,并不是惟一的一个标识记录。
      2、数据目录项。即为索引的相关元素,在建立索引的过程中,数据目录项一般具有各种不同的选择方式。
      3、记录ID。每一个/段索引在存储内容中惟一的一个标识符。