荐!WordPress robots.txt文件写法(sitemap)

摘要robots.txt文件写法是你的网站和搜索引擎对话的有效工具,是一种提升网站搜索引擎友好度的有效手段。本文主要介绍WordPress博客的robots.txt文件写法,包括针对不同搜索引擎的写法,以及在robots.txt文件中增加网站地图sitemap链接的方法。

WordPress博客的robots.txt文件怎么写?这可能是很多WordPress用户关心的问题。在前些日子,小拼也分享了robots.txt文件配置和使用方法的一些经验之谈。观察小拼SEM博客robots.txt文件近两个月的搜索引擎表现,小拼也算是折腾出一套适合WordPress的robots.txt文件大众写法,至少它很合理。

关于robots.txt文件的重要性,小拼也反复强调过很多次,你完全不能忽视它。事实上,robots.txt文件是搜索引擎蜘蛛抓取你的网站时,要访问的第一个文件。试想一下,如果搜索引擎找不到robots.txt的话,会不会很失望呢?换句话说,robots.txt文件相当于是搜索引擎蜘蛛的网站“导游”,一方面为搜索引擎蜘蛛索引和抓取网站内容提供便利,另一方面也节约了部分网络资源消耗,至少Google和百度就很赞同这一点。

WordPress robots.txt文件写法

关于WordPress博客的robots.txt文件写法,随手Google一下就会有很多搜索结果可以参考。当然你也可以选择去参考那些知名网站的robots.txt文件写法,查看方法很简单,直接输入http://目标域名/robots.txt,回车即可。小拼认为,每个网站都有自己的特色,只有了解了robots.txt文件的原理和概念之后,才能总结出一套适合自己网站的robots.txt文件写法。

下面,分享下小拼SEM博客robots.txt文件的写法:

User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Allow: /wp-postviews-plus-speaking-and-use/
Disallow: /?
Disallow: /cse/
Disallow: /feed/
Disallow: */feed/
Disallow: */trackback/
User-agent: Baiduspider
Disallow: /page/
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /2011/
Sitemap: http://www.xp-sem.com/sitemap.xml

个人认为,上面的robots.txt文件写法是很合理的,下面详细解释下每行规则的含义:

User-agent: * 对所有搜索引擎开放收录

Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等

Allow: /wp-content/uploads/ 开放uploads文件夹,允许搜索引擎收录图片一类的媒体文件,不加上这条的话会被上面的规则禁掉

Allow: /wp-postviews-plus-speaking-and-use/ 同上,这篇文章链接包含“wp-”字样,希望被搜索引擎收录

Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url

Disallow: /cse/ 这是小拼的自定义搜索页面,同样禁止搜索引擎收录

Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面

Disallow: */feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅

Disallow: */trackback/ 禁止收录所有分类目录、TAG、文章的trackback

User-agent: Baiduspider 以下规则仅针对百度蜘蛛

Disallow: /page/ 禁止百度收录首页分页,防止首页权重过于分散

Disallow: /category/*/page/ 同理,禁止百度收录分类目录分页

Disallow: /tag/*/page/ 同理,禁止百度收录TAG标签分页

Disallow: /2011/ 禁止百度收录2011年的日期存档页,注意一点:这条规则有些特殊,没什么规律,需要一条一条手动添加

Sitemap: http://www.xp-sem.com/sitemap.xml WordPress robots.txt文件增加Sitemap链接方法

WordPress robots.txt文件注意事项

1)小拼SEM博客使用的是伪静态,后台固定链接设置为:/%postname%/,以上robots.txt文件写法仅供参考,并不一定适用于你的网站,你应该根据固定链接的实际设置作相应修改;

延伸阅读:Windows2003 IIS6完美实现WordPress伪静态的方法

2)在小拼的SEO计划中,未来百度将是主要流量来源,所以才针对百度蜘蛛写了一些特别规则,虽说小拼避免了分页时重复标题、关键字和描述的产生,但是相似页面还是不希望被百度索引,避免权重过于分散。这点根据个人喜好来做,你也可以去掉,当然,你也可以针对其它搜索引擎写你想要的robots.txt文件规则;

延伸阅读:SEO之WordPress标题关键字和描述优化技巧

3)针对百度Robot,小拼禁止收录首页、栏目页、TAG标签页的分页,虽说解决了WordPress标题关键字和描述重复的问题,但是过多的“类似”页面还是会分散主页面一定的权重;

4)robots.txt文件中加入Sitemap链接,这点很重要,也是搜索引擎喜欢的。如何生成WordPress的Sitemap,你可以借助Google Sitemap Generator插件实现,此外,百度站点地图推荐Baidu Sitemap Generator,除了生成sitemap_baidu.xml外,还有sitemap.html这种静态页面,对搜索引擎非常友好。

提醒一点,WordPress的Sitemap插件功能很强大,是提升网站收录的一大助力。但是,小拼并不保证你手动或借助其它工具生成网站地图的合理性、正确性以及在搜索中的表现。

5)经小拼观察分析,Google对robots.txt文件很敏感,通常2~3天就可以对你robots.txt文件的修改作出回应。反观百度,依然不给力,符合中国特色的搜索引擎当然要有点“特色”;

6)各大搜索引擎对robots.txt文件的Allow标签支持很好,可以放心去用;

7)注意测试robots.txt文件的正确性,否则等你发现时,就会纠结好久了。推荐Google网站管理员工具里的“测试robots.txt”功能,非常实用。说个小技巧:如果你的robots.txt文件中有禁止过在你意料之外的URL,而你现在又想让这个URL出现在谷歌的搜索结果中,很简单,除了修改robots.txt文件的规则之外,还有就是利用Google网站管理员工具的测试robots.txt功能,针对性地测试这个URL,可能会收到意想不到的效果。

好了,关于WordPress robots.txt文件写法就介绍到这里,有什么不明白的地方可以给小拼留言。文末,再次强调下robots.txt文件的作用:是你的网站和搜索引擎对话的有效工具,通过robots.txt文件,你可以告诉搜索引擎哪些内容不希望被索引和抓取,哪些内容又是你向搜索引擎推荐的。robots.txt文件是一种提升网站搜索引擎友好度的有效手段,你完全没理由拒绝它。

目前留言:2   其中:访客:2   博主:0

  1. 星星

    博主,我的网站用Baidu Sitemap Generator生成不了sitemap_baidu.xml和sitemap.html,后台提示“文件或目录不可写,请修改根目录权限改为777。”我的是windows主机,博主知道怎么解决嘛,谢谢!

  2. whj

    “Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等
    Allow: /wp-content/uploads/ 开放uploads文件夹,允许搜索引擎收录图片一类的媒体文件,不加上这条的话会被上面的规则禁掉”

    优先级是怎样的,我刚在另外地方看到 上比下的优先级更高

评论加载中...

给我留言

图片 表情