如果网站上有一些页面不想被别人从搜索引擎搜索到,我们可以通过编写 robots.txt 文档来对搜索引擎的行为进行控制。
robots.txt 是业界的标准,它让网站能够所有者控制搜索引擎访问他们的网站。通过定义 robots.txt 的内容,可以实现不同层次地控制访问,比如让搜索引擎只访问单个目录,特定类型的网页,或者某一网页。 有效地使用 robots.txt 能让你更好地控制对你的网站的搜索。 如何使用 robots.txt 文件控制搜索引擎对网站的访问和索引? 在网站根目录下创建一个 robots.txt 文档,将以下内容写入其中 User-Agent: Googlebot Disallow: /logs/ User-Agent 行指明该文档只针对为 Googlebot,当然你也可以使用 User-Agent: *,这样所有主要搜索引擎都会阅读并遵循你放在 robots.txt 的规则。只要你愿意,还可以为不同的搜索引擎指定不同的规则。 Disallow 行告诉 Googlebot 不能访问和索引 logs 目录。这样一来,你放在logs目录中的内容将不会显示在谷歌搜索结果中。 更多关于 robots.txt 文档的语法和规则请访问 http://www.robotstxt.org/ |
|