SEO密码

排名:搜索词处理和文件匹配

天接云涛连晓雾。星河欲转千帆舞。仿佛梦魂归帝所。闻天语。殷勤问我归何处。

我报路长嗟日暮。学诗谩有惊人句。九万里风鹏正举。风休住。蓬舟吹取三山去。

                                                                    —-渔家傲·天接云涛连晓雾

        经过搜索引擎蜘蛛抓取页面,索引程序计算得倒排索引后,搜索引擎就准备好可以随时处理用户搜索的了。用户在搜索框填入查询词后,排名程序调用索引孔数据,计算排名过程是与用户直接互动的。搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。排名:搜索词处理。搜索词的处理包括以下几点。

排名:搜索词处理

         1、中文分词;与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为词基础的关键词组合。分词原理与页面分词相同。
         2、去停止词;同索引时一样,搜索引擎也需要把搜索词中停止词去掉,最大限度的提高排名的相关性及效率。
         3、指令处理;查询词完成分词后,搜索引擎的默认处理方式是关键词之间使用“与”逻辑。也就是用户搜索“减肥方法”时,程序分词就是“减肥”“方法”这两个词,搜索引擎排序时默认认为,用户寻找的是既包含“减肥”,也包含“方法”的页面。只包含“减肥”不包含“方法”,或者只包含“方法”不包含“减肥”的页面,被认为是不符合搜索条件的。当然,这只是极为简化的为了说明原理的说法,在实际上我们也会看到只包含一部分关键词的搜索结果。

          另外当用户输入的查询词还可能包含一些高级搜索指令,如符号:加号和减号等等,搜索引擎都需要作出识别和相应处理。

搜索词处理

        4、拼写错误矫正;用户如果输入了明显错误的字或英文单词拼错,然搜索引擎会提示用户正确的用字或拼法。
        5、整合搜索触发;某些搜索词会触发整合搜索,比如明星姓名就经常触发图片和视频内容,当前的热门话题又容易触发资讯内容。哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算。
        6、搜索框提示;用户搜索框填写过程中,搜索引擎就根据热门搜索数据给出多组可能的查询词,减少用户输入时间。
         文件匹配

         搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。

文件匹配

         假设用户搜索“关键词2”和“关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,就能找到分别包含有这两个词的所有页面。经过简单求交集计算就能找出既包含“关键词2”,也包含“关键词7”的所有页面:文件1和文件6。