SEO工具

SEO工具之“Xenu”

  这款SEO工具是功能简单,且对SEO十分重要的蜘蛛爬行模拟工具,有中英文版,使用简单。其界面非常简洁,用户输入一个网址,通常是网站的首页,单机“OK”按钮,这款软件就从所输入的网址顺着链接爬行到其他网址。因此使用它可以很方便的检查网站内部链接可爬行性,是否有错误链接等等。
       功能:1、它是免费的;2、它有易学的用户界面 ;3、很好的错误报告;4、可以一链即查看所有“失败链接报表”;5、有重新检查失败链接的功能“recheck broken”。

英文版的

       针对英文版的Xenu界面,几个可选的参数,左上角的选择框“Check external links”是让用户选择是否检查外部链接,如只是像检查本网站链接,则可不用选择。在这之后有两个文本框,第一个爬行时把某种特定URL当作时内部链接(Consider URLs beginning with this as ^internal^)。例如你有几个网站链接在一起,从第一个URL开始,Xenu可以同时爬行检测到其他网站。最后一个文本框呢就是为了能够排除某些URL(Do not check any URLs beginning with this),比如网站上一些功能链接、带脚本的链接等等。

        Xenu的测试原理:从待测网站的根目录开始搜索所有的网页文件,对所有网页文件中的超级链接、图片文件、包含文件、CSS文件、页面内部链接等所有链接进行读取,如果是网站内文件不存在、指定文件链接不存在或者是指定页面不存在,则将该链接和处于什么文件的具体位置记录下来,一直到该网站所有页面中的所有链接都测试完后才结束测试,并输出测试报告。如果发现被测网站内有页面既没有链接到其他资源也没有被其他资源链接,则可以判定该页面为孤立页面,将该页面添加到孤立页面记录,并提示用户。

Xenu测试网站链接

       测试链接目标是否存在和是否有孤立页面都可以通过程序自动完成,但是程序却不能判断目标页面是否与用户的用意是否相符合,如果链接到不正确的页面,例如将公司介绍链接到产品介绍,则程序无法进行判断,因此链接页面的正确性还需要人工进行判断
       测试完毕后,可以通过REPORT菜单中的HTML REPORT来进行测试结果的查看,可以查看的方式包括:
       1、 错误链接报告  2、 完整的报告  3、 测试文件清单   4、 用户自定义的HTML报告,可以允许用户定义显示条件。  5、 重定向链接列表
        总结:链接测试因为技术含量不高,很多测试人员都不愿意做链接测试,但是链接的正确却直接影响用户对该网站的印象,一个网站如果出现链接上的错误,不管其页面做的如何漂亮,用户对其信任度都会大打折扣。因此,我们首先必须重视链接测试,虽然其需要耗费很多的时间,但是可以提高网站的整体质量,另外引入链接自动化测试工具可以加快链接测试进行的速度。

Xenu使用说明

        Xenu的使用说明  1. 输入要扫描的网站地址。 2. 开始扫描,会显示当前链接的详细信息。包括:地址、状态、类型、大小、标题、日期、层次、外部链接、内部链接、持续时间。
       3. 状态:OK,网页下载完成。跳过外部的,不读取该网站以外的链接。未找到,链接没有存在。
       4. 选择某条记录,右键->属性,可以查看该链接的信息。包括:这个页面链接的信息、链接到这个页面的链接。 
        5. 最后生成网站链接报告。

中文版的Xenu

        Xenu运行后在结果中可以看到哪些URL是有误或者是打不开的就算再“负责”的站长也可能会发生错误,网站稍大一点,人工就很难检查到这些错误,这点是针对比较老的网站。新的网闸则则会较少的出现这些问题。
        Xenu还可以发现一些你并不想发现和爬行的链接,这些动态或者其他形式的URL,是网站的功能链接、博客中作者的和其文章的链接,还有一些评论的链接。
        就这些链接被收录也没有什么实际性的价值。当人访问页面时不容易全都注意到,用Xenu运行查看一遍,就可能会出现一些让人头疼的,且非常不想收录的链接。最后可以立马使用robots文件禁止搜索引擎抓取,要么就是再通过页面链接进行调整。
        Xenu运行完毕后,会把所有错误链接列表供你参考,而且可以生成一个网站Sitemap。这是一个很好的用处。
      状态识别    检测完的链接状态常用的有:

  1、ok、timeout、no connection、no such host、not found、no info to return、no object data、keep same verb等等。
       2、ok、mail host ok :表示链接正常;
       3、timeout、no connection、no such host:表示访问超时或者无法访问(不代表是空链);
       4、not found:如果是not found,表示没有找到,即空链接。
       5、no info to return:没有对象返回,即空页面。
       6、no object data:没有对象数据,常见于访问服务器出现400错误等访问出错情况
       7、keep same verb:url是一致的,例如<a href=”网址链接A”>网址链接A</a>这种形式,在软件识别此状态后,建议在源码里检查一下,如只有类似刚才举例形式是无需担心的,如有其他形式的链接,需要看其是否符合seo优化标准再做修改。