页面

2008年12月5日

发挥robots.txt文件的作用 - Google_SEO帮助文档(十)

Make effective use of robots.txt

让你的robots.txt发挥作用

A "robots.txt" file tells search engines whether they can access and therefore crawl parts of your site. This file, which must be named "robots.txt", is placed in the root directory of your site.

robots.txt文件告诉搜索引擎蜘蛛是否允许索引您的整站内容还是部分内容。这个文件必须命名为"robots.txt",并且要放置在网站的根目录。

g

The address of our robots.txt file

robots.txt文件的地址

g

All compliant search engine bots (denoted by the wildcard * symbol) shouldn't access and crawl the content under /images/ or any URL whose path begins with /search

所有的搜索爬虫(可以使用通配符表示)不允许爬行"/images/"和"/search"下的内容

You may not want certain pages of your site crawled because they might not be useful to users if found in a search engine's search results. If you do want to prevent search engines from crawling your pages, Google Webmaster Tools has a friendly  robots.txt generator to help you create this file.Note that if your site uses subdomains and you wish to have certain pages not crawled on a particular subdomain, you'll have to create a separate robots.txt file for that subdomain.  For more information on robots.txt, we suggest this Webmaster Help Center guide on  using robots.txt files.

你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站 管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一 个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息。

There are a handful of other ways to prevent content appearing in search results, such as adding "NOINDEX" to your robots meta tag, using .htaccess to password protect directories, and using Google Webmaster Tools to remove content that has already been crawled. Google engineer Matt Cutts walks through the  caveats of each URL blocking method in a helpful video.

还有一些方法防止你的内容显示在搜寻结果,例如META标签的"NOINDEX"属性,使用.htaccess 对目录进行加密,或者使用google管理员工具移除那些已经被收录的内容。由google工程师Matt Cutts介绍的关于各种URL排除原理的注意事项的视频。

Good practices for robots.txt

关于 robots.txt的最佳实践

•  Use more secure methods for sensitive content - You shouldn't feel comfortable using robots.txt to block sensitive or confidential material. One reason is that search engines could still reference the URLs you block (showing just the URL, no title or snippet) if there happen to be links to those URLs somewhere on the Internet (like referrer logs). Also, non-compliant or rogue search engines that don't acknowledge the Robots Exclusion Standard could disobey the instructions of your robots.txt. Finally, a curious user could examine the directories or subdirectories in your robots.txt file and guess the URL of the content that you don't want seen. Encrypting the content or password-protecting it with .htaccess are more secure alternatives.

对于一些敏感内容同时使用多种方式会比较安全 - 在使用robots.txt限制读取敏感话题你并不是就绝对安心了。例如你在Google 最后一次下载robots.txt之后,重新修改robots.txt,您的修改结果不会反映在我们的缓存版本中。其次,一些无赖漫游器(例如垃圾信息发送者和网络内容非法搜索者的漫游器及其他不良漫游器)可能就不会遵守此文件。 因此,我们建议您在服务器受密码保护的目录下保存机密信息。最后一些好奇的用户就会去查看 你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。我们建议您在服务器受密码保护的目录下保存机密信息。

Avoid避免:

•  allowing search result-like pages to be crawled (users dislike leaving one search result page and landing on another search result page that doesn't add significant value for them)

允许爬行搜索结果页面。(用户并不喜欢打开搜寻结果看到又是搜寻结果,这对用户来说一点意义也没有。)

•  allowing a large number of auto-generated pages with the same or only slightly different content to be crawled: "Should these 100,000 near-duplicate pages really be in a search engine's index?"

允许大量的自动生成的页面被抓取,其中大多都是相同或者近乎相似的内容。"假使100000张几乎像复制的页面,搜索引擎有必要全部索引吗?"

•  allowing URLs created as a result of proxy services to be crawled

允许爬行代理服务器上的URLS

搜索引擎优化指南内容导读:

  1. 搜索引擎优化指南前言 - Google_SEO官方帮助文档中文版(一)
  2. 创建独一无二,准确的网站标题 - Google_SEO帮助文档(二)
  3. 使用Meta标签的Description属性 - Google_SEO帮助文档(三)
  4. 改进你的URL解构 - Google_SEO帮助文档(四)
  5. 让你的导航更加人性化 - Google_SEO帮助文档(五)
  6. 提供有质量的内容和服务 - Google_SEO帮助文档(六)
  7. 更好的写锚文本 - Google_SEO帮助文档(七)
  8. 适当地使用标题标记 - Google_SEO帮助文档(八)
  9. 组织你的图片 - Google_SEO帮助文档(九)
  10. 发挥robots.txt文件的作用 - Google_SEO帮助文档(十)
  11. 在链接中使用nofollow - Google_SEO帮助文档(十一)
  12. 使用正确的方式推广你的网站 - Google_SEO帮助文档(十二)
  13. 用好免费的WEB管理员工具 - Google_SEO帮助文档(十三)
  14. 充分利用网站分析工具 - Google_SEO帮助文档(十四)
  15. 对管理员有帮助的资源 - Google_SEO帮助文档(十五)



--
365生活网,您身边的朋友
www.365life.org

没有评论: