搜索引擎

主从式分布爬虫(Master-Slave)

         对于主从式分布爬虫,不同的服务器承担不同的角色分工如图,其中有一个台专门负责对其他服务器提供URL分发服务,其他机器则进行实际的网页下载。URL服务器维护待抓取URL队列,并从中获得待抓取网页的URL,分配给不同的抓取服务器,另外还要对抓取服务器之间的工作进行负载均衡,使得各个服务器承担的工作量大致相等,不至于出现忙的过忙、闲的过闲的情形。抓取服务器之间没有通信联系,每个抓取服务器只和URL服务器进行消息传递。

主从式分布爬虫(Master-Slave)

         谷歌早就在早期间即采用此种主从分布式爬虫,在这种架构中,因为URL服务器承担很多管理任务,同时待抓取URL队列数量巨大,所以URL服务器容易成为整个系统的瓶颈。

旅行

         向往巅峰,向往高度,结果巅峰只是一道刚能立足的狭地。不能横行,不能直走,只享一时俯视之乐,怎可长久驻足安坐?上已无路,下又艰难,我感到从未有过的孤独和惶恐。世间真正温煦的美色,都熨帖着大地,潜伏在深谷。君临万物的高度,到头来只构成自我嘲弄。

                                                                                                                         ——余秋雨《文化苦旅》