robots.txt文件配置和使用方法详解

摘要robots.txt文件是什么?robots.txt是一个简单的以.txt结尾的文本文件,通过配置robots.txt文件,可以引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页。本文将详细说明robots.txt文件配置和使用方法以及注意事项。

robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件。

robots.txt文件是什么?

什么是robots.txt文件?

robots.txt是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件。

robots.txt文件有什么作用?

通过robots.txt文件,可以和各大搜索引擎很友好的对话,引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页,例如网站后台、会员交互功能等,这在一定程度上也节省服务器网络资源。另外,robots.txt文件对SEO的意义也很重要,可以很好的避免重复、相似网页,以及一些关键字权重流失;写好robots.txt文件,是每个SEOer必做的功课之一。

robots.txt文件的作用

如何配置robots.txt文件?

配置robots.txt文件很简单,桌面->右键->文本文档,命名为robots.txt,注意这个文档是以“.txt”结尾。在robots.txt文件里写好规则,用FTP软件上传到你的网站根目录下即可。想检查robots.txt文件配置是否正确,只用在浏览器输入网址:http://你的域名/robots.txt,看能否正常访问即可。

robots.txt文件写法

robots.txt文件写法

robots.txt文件写法非常简单,通常以User-agent开始,包含一行或多行Disallow或Allow记录;在robots.txt文件中可以使用“#”进行注释,具体使用方法和PHP一样;另外,robots.txt文件支持*|$|?等通配符。看个简单的例子

# robots.txt文件怎么写?
User-agent: *  #对所有搜索引擎Robot开放
Disallow: /wp-content/ #禁止访问wp-content目录下任何内容

关于robots.txt文件函数说明:

User-agent

该项的值用于描述搜索引擎Robot的名称,至少要有一条User-agent记录;如果User-agent的值为*,则表示该协议对所有搜索引擎Robot都有效;

在robots.txt文件中“User-agent: *”只能有一条,可以同时出现“User-agent: Baiduspider”和“User-agent: Googlebot”的情况。

附:常见搜索引擎蜘蛛Robots名称

Baiduspider http://www.baidu.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Scooter http://www.altavista.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com

Disallow

该项的值用于描述不希望被Robot访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到;

注意“Disallow: /test和“Disallow: /test/”的区别,虽说只区别于一个反斜杠“/”,不过意义完全不同。“Disallow: /test”表示可以禁止的URL包括:/test、/testabc.html、/test/abc这三种形式;“Disallow: /test/”则允许Robot访问/test、/testabc.html,禁止访问/test/abc这种形式。

如果Disallow记录的值为空,即“Disallow:”格式,则说明该网站的所有内容可以被任何搜索引擎Robot抓取;在robots.txt文件,如果有声明User-agent,至少要有一条Disallow记录。

Allow

该项和Disallow对立,表示允许搜索引擎Robot访问指定内容。

robots.txt文件用法实例

允许所有搜索引擎Robot访问

User-agent: *
Disallow:

或者robots.txt文件为空,什么也不写,也能达到同样的效果。

禁止所有搜索引擎Robot访问网站的任何内容

User-agent: *
Disallow: /

禁止所有搜索引擎Robot访问网站的指定内容(如下例中的aaa、bbb、ccc目录)

User-agent: *
Disallow: /aaa/
Disallow: /bbb/
Disallow: /cccc/

禁止指定搜索引擎Robot访问(如下例中的Google机器人:Googlebot)

User-agent: Googlebot
Disallow: /

只允许指定搜索引擎Robot访问(如下例中的百度机器人:Baiduspider)

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

向搜索引擎提交站点地图

http://你的域名/sitemap.xml

目前各大搜索引擎对站点地图支持良好,除了sitemap.xml这种格式外,还推荐sitemap.html这种静态格式,好处多多,不再累述。

robots.txt文件十个注意事项

1)robots.txt文件名必须全部小写,不要为追求个性写成RoboTs.txt等形式;

2)robots.txt文件只能放在网站根目录下面,其它位置无效;

3)robots.txt文件内容对大小写敏感,尤其是包含网址的部分。虽说很多搜索引擎对网址之外的部分没有严格的大小写限制,但是从搜索引擎的严谨性和个人对网站的要求方面来说,还是建议区分大小写;

4)通常,robots.txt文件里只有三个函数:User-agent、Disallow和Allow,通常我们使用前两个组合限制抓取就可以了,个人认为没有必要使用Allow,默认搜索引擎是会抓取你网站所有内容的;

5)robots.txt文件里不要放其它无关内容,要严格遵从规范。可以参考小拼SEM博客的robots.txt文件写法;

6)robots.txt文件只是和搜索引擎的一个“君子协议”,并不意味着每个搜索引擎都严格遵守robots.txt的规则,按照你的意图来抓取网页,要清楚,你的网站在搜索引擎面前没有什么“秘密”;

7)要检查robots.txt文件是否达到了预期的效果,可以通过谷歌网站站长工具中的robots.txt工具测试;

8)禁止搜索引擎收录单独页面。在之前“关于rel="external nofollow" nofollow精彩点评”一文中,介绍过Robots Meta标签,它区别于robots.txt文件。robots.txt文件主要是限制搜索引擎对整个站点或者目录的访问情况,而Robots Meta标签则是针对一个具体的页面。通常Robots Meta标签的默认值是index和follow,只有inktomi除外,对于它,默认值是index,nofollow。Robots Meta标签总共有四种组合:

<meta name="robots" content="index,follow">或<meta name="robots" content="all">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">或<meta name="robots" content="none">

9)目前绝大多数搜索引擎是支持robots.txt文件规则的,Robots META标签则不是。Google一如既往地强大,对这两种形式都完美支持;

10)建议站点根目录下要放一个robots.txt文件,哪怕是空白文件也好。虽说不放robots.txt文件也没什么影响,但是考虑到Robot访问站点时,第一目标就是robots.txt文件,还是顺着它的意思办吧,谁让游戏规则是它定的呢?!

以上就是robots.txt文件配置和使用方法详解了,希望能对你有所帮助!有关robots.txt文件的写法、用法,如果还有什么疑问,可以给我留言。

目前留言:4   其中:访客:4   博主:0

  1. Asley Ellingsworth

    Very good blog! Do you have any tips and hints for aspiring writers? I’m planning to start my own site soon but I’m a little lost on everything. Would you suggest starting with a free platform like WordPress or go for a paid option? There are so many options out there that I’m totally confused .. Any recommendations? Cheers!

  2. 小拼

    @Asley Ellingsworth
    Suggest you use wordpress, it is very strong and simple to use. Website is the quality of the article and writing skills.Original articles is the key, this is the google search engine like or other.Of course, some fresh of interesting things can be copied to your website, it depends on your site’s positioning.Thank you:)

  3. Raihan

    Awesome website…can u plz tell me how i able to build this site?

  4. China LED Lighting

    Well written article!

评论加载中...

给我留言

图片 表情