SEO密码

跟踪链接,连接跟踪

金樽清酒斗十千,玉盘珍羞直万钱。停杯投箸不能食,拔剑四顾心茫然。

欲渡黄河冰塞川,将登太行雪满山。

闲来垂钓碧溪上,忽复乘舟梦日边。

行路难!行路难!多岐路,今安在?

长风破浪会有时,直挂云帆济沧海。

 行路难

 跟踪链接,顾名思义,就是识别一个链接上双方向的数据包,同时记录状态。

连接

  为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。
      最简单的爬行时遍历的策略可分两种:一种是深度优先,另一种是广度优先。

深度优先

      深度优先:是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其它链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
如图,蜘蛛跟踪链接,从A 页面爬到A1 A2 A3 A4 页面后,已经没有其它链接可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到 B1 B2 B3 B4。在深度优先策略中,蜘蛛一直会爬到无法再向前,才返回爬另一条线。

  从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

广度优先

       广度优先:指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上的所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬行向第三层页面。
蜘蛛从A页面顺着链接爬到A1 B1 C1 页面,直到A页面上的所有链接都爬行完,然后再从A1页面发现的下一层链接,爬行到A2  A3  A4…….
       就理论上讲,无论是深度优化还是广度优先,只要给蜘蛛足够的时间,都能爬玩整个互联网。在实际工作中蜘蛛的宽带资源、时间都不是无限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分而已。
       深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先),同时也会考虑页面权重、网站的规模、外链、更新等等因素。