您的网站服务器上的网络机器人

什么是网络机器人?

一个网络机器人是一个程序,自动递归遍历检索文件的内容和信息的一个网站。网络机器人最常见的类型是搜索引擎蜘蛛。这些机器人访问网站,并按照链接的搜索引擎数据库中添加更多的信息。

网络机器人经常去不同的名称。您可能会听到他们所谓:

蜘蛛
机器人
爬虫

所有这些条款意味着同样的事情,但机器人是最清楚的,因为它并不意味着该方案正在通过自己的网站,而是编程系统将通过一个网站。

网络机器人遵守的规则

虽然有可能写一个机器人,无视规则,大多数Web机器人书面服从一定的规则,在一个网站上的特定文本文件。此文件的robots.txt文件。它通常是在Web服务器的根,并作为机器人网关。它告诉他们的网站,他们可以等领域,并不能遍历。

请记住,而大多数Web机器人遵循的规则,你躺在您的robots.txt文件,有的没有。如果你有敏感信息,你应该使用密码或Intranet上的控制,而不是蜘蛛它不是依靠机器人访问它。

如何使用网络漫游

网络机器人最常见的用途是搜索引擎的网站索引。但机器人可以使用,以及用于其他目的。一些较常见的用途是:

链接验证 - 机器人可以按照一个网站或网页上的所有环节,它们进行测试,以确保他们返回一个有效的页面代码。这样做的好处编程本质上是明显的,机器人可以在一两分钟访问页面上的所有环节,并提供一个比一个人可以做手动更快的结果的报告。
HTML验证 - 类似链接验证,机器人可以被发送到您的网站上的各种页面,以评估的HTML编码。
更改监测 - 是在网络上会告诉你,当网页已经改变的服务。这些服务是通过机器人发送到页面定期评估的内容发生了变化。不同的是,当机器人将提交报告。
网站镜像 - 类似的变化监测机器人,这些机器人评估一个网站,并时有变化,机器人将更改的信息传输到镜像站点位置。