SEO密码

搜索引擎的技术发展简史

从搜索引擎所采取的技术层面上讲,搜索引擎的技术发展简史

搜索引擎的技术发展简史

      导航时代,也叫它史前时代:分类目录的一代。雅虎和国内的hao123是那个时代的代表之一。通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分级目录来查找高质量的网站。采用纯人工的方式,且未采取什么高神的技术手段。
      采取分类目录的方式,一般被收录的网站质量较高。缺点就是这种方式扩展性不强,大部分网站不能被收录。

      文本检索的一代:采用经典的信息检索模型,比如“布尔模型”、“向量空间模型”或者“概率模型”,来计算用户查询关键词和网页文本内容的相关程度。网页之间具有丰富的链接关系,而这一代搜索引擎并未使用这些信息。早期有很多搜索引擎比如AltaVista、Excite等大都采取这种模式。相比分类目录,这种方式可以收录大部分网页,并能够按照网页和用户查询的匹配程度进行排序。总的来说,搜索结果质量就不是很好。

链接分析

      链接分析的一代:这代的搜索引擎充分利用网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。一般而言,网页链接代表了一种推荐似的关系,通过链接分析可在海量内容中找出重要的网页。这种重要性质上是对网页流行程度的一种衡量,因为被推荐次数多的网页其实代表其具有“流行”性。搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。
      谷歌率先推出并使用PageRank链接分析技术,获得了成功。当时引起了学术界和其他商业搜索引擎的关注。之后学术界陆续提出了很多改进的链接分析算法(之后的如今暂且不表)。

      采用链接分析能够有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,一旦输入查询请求相同,所有用户都会获得相同的搜索结果。另外,很多网站拥有着为了获得更高的搜索排名,针对链接分析算法提出了不少链接作弊方案,从而导致搜索结果的质量变差。

用户中心

      用户中心的一代:可以理解用户需求为核心。不同用户即使输入同一个查询关键词,但其目的也可能不一样。如同意输入“苹果”作为查询此,一个追捧iPhone的时尚青年和一个果农的目的会有相当大的差距。即使是同一用户,输入相同的查询词,也会因为所在的时间和场合不同,需求就有所变化。这之后,搜索引擎基本上致力于解决问题【如何能够理解用户发出的某个很短小的查询词背后包含的真正要求】,所以这一代搜索引擎称之以用户中心的一代。

      目的是能够获取用户的真实需求,再之后的搜索引擎都进行了很大技术上提高。比如利用用户发送查询词时的时间和地理位置信息,利用用户过去发出的查询词及相应的点击记录等、历史信息等等技术手段,尝试理解用户此时此地的真正需求。

索引

       搜索引擎的技术发展史。在当时搜索引擎的目标:更全、更快、更准。
       索引、索引压缩、排序、链接分析、反作弊、用户研究、云存储、爬虫、网页去重、缓存等。