SEO密码

去停止词、消除噪声之预处理

揭开雷电现象的秘密,制作了避雷针—本杰明·富兰克林 

      停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。不管英文还是中文,页面内容中都会有一些出现频率较高,却对内容没有任何影响的词。

去停止词

       助词:的、地、得之类;
       感叹词:啊、哈、呀、唔、哦之类;
       副词或介词:从而、但是、却、以之类;
       这些词都被称为停止词。主要是它们对页面得主要意思没有影响。例如:“IT技术点评”,虽然其中的“IT”从我们的本意上是指“Information Technology”,事实上这种缩写也能够为大多数人接受,但对搜索引擎来说,此“IT”不过是“it”,即“它”的意思,这在英文中是一个极其常见 同时意思又相当含混的词,在大多数情况下将被忽略。我们在IT技术点评中保留“IT”更多地面向“人”而非搜索引擎,以求用户能明了IT技术点评网站涉及的内容限于信息技术,虽然从SEO的角度这未必是最佳的处理方式。

        英文最普遍的功能词是限定词(“the”、“a”、“an”、“that”、和“those”),这些词帮助在文本中描述名词和表达概念,如地点或数量。介词如:“over”,“under”,“above” 等表示两个词的相对位置。

搜索引擎在索引页面之前会去掉这些停止词

        搜索引擎在索引页面之前会去掉这些停止词,便于索引数据主题更为突出,可减少无谓得计算量。

        在信息检索中,这些功能词的另一个名称是:停用词(stopword)。称它们为停用词是因为在文本处理过程中如果遇到它们,则立即停止处理,将其扔掉。将这些词扔掉减少了索引量,增加了检索效率,并且通常都会提高检索的效果。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

消除噪声

         消除噪声
         绝大部分页面上面还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、广告、导航条等。以常见得博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但这些页面本身与“分类”“历史”这些词没有任何关系。用户搜索“分类”“历史”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是没有任何的意义,根本不相关。对于这些板块都属于噪声,页面出题上只起到分散的作用。
         搜索引擎需要识别并消除这些噪声,排名时不适用噪声内容。消噪的基本方法依据HTML标签对页面分块,区分出页头、导航、菜单、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主题内容。