SEO密码

爬虫、抓取

飞丝结罗网,来去黑暗中;坐镇八卦帐,交趾一邪郎。(霹雳布袋戏)

九天银丝线,八卦罗网长;飞跃地狱门,邪郎掌无常。(金光布袋戏)

幽冥暗鬼府,静里藏机弦。罗网梁上密,诡丝腹中缠。 

淡薄唯表象,老钝把敌安。专等飞蛾至,方得见笑颜。 

                                               唐李白

网络蜘蛛

       如果要把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。搜索引擎工作的第一步是爬行和抓取,完成数据收集的任务。搜索引擎用来爬行和访问页面的程序被称为蜘蛛(Spider)或机器人(bot)。
       搜索引擎蜘蛛访问网站页面时类似于普通用户所使用的浏览器,当蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取时的速度,都使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots协议文件。但是robots.txt文件禁止搜索引擎抓取某些文件或者目录(User-agent: *   Disallow: /)—禁止所有爬虫抓取文件这时蜘蛛会遵守协议,不抓取被禁止的网址。
       和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。

常见的网络蜘蛛
      比较常见的搜索引擎蜘蛛有

       1、百度蜘蛛:Baiduspider
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
       注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
       2、谷歌蜘蛛:Googlebot
       3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
       4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。
       5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 
       6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)
       7、搜狗蜘蛛:Sogou News Spider
       搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。
       线上常见”Sogou web spider/4.0″ ;”Sogou News Spider/4.0″ ;”Sogou inst spider/4.0″ 可以为它颁个“占名为王”奖。
        8、MSN蜘蛛:msnbot,msnbot-media
        9、必应蜘蛛:bingbot 
线上(compatible; bingbot/2.0;)
        10、一搜蜘蛛:YisouSpider
        11、Alexa蜘蛛:ia_archiver
        12、宜sou蜘蛛:EasouSpider
        13、即刻蜘蛛:JikeSpider
        14、一淘网蜘蛛:EtaoSpider