搜索引擎

单词词典

  单词词典
  
  单词词典是倒排索引中非常重要的组成部分,它用来维护文档集合中出现过的所有单词的相关信息,同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。在支持搜索时,根据用户查询词,去单词词典里查询,就能够获得相应的倒排列表,并以此作为后续排序的基础。
  
  对于一个规模很大的文档集合来说,可能包含几十万甚至上百万的不同单词,能否快速定位某个单词,这直接影响搜索时的响应速度,所以需要高效的数据结构来对单词词典进行构造和查找,常用的数据结构包括哈希加链表格结构和树形词典结构。