1、Google和Baidu等搜素引擎不喜欢重复内容,尤其是重复的页面,如果它收录了你太多重复的页面,它就不爱你了,后果你懂的。
2、为了减少网站内多余的重复页面,我们可以使用robots.txt文件。
3、robots.txt是一个文本文件,放置于网站的根目录下,搜索引擎会定期抓取这个文件,并按照这个文件内指定的规则判断抓取哪些内容,不抓取哪些内容。
4、如果你的博客是WordPress,并且像Slyar这样是建在二级目录/blog下的,你仍旧需要把robots.txt文件放置于网站根目录下,只要在文件内指定二级目录即可。
5、不是所有的搜索引擎都支持allow语句,所以尽量不使用allow语句,全部用disallow代替。
6、搜索引擎会过滤URL中"#"(井号)后面的内容,所以锚点标记的URL你可以忽略。
7、以下是Slyar的robots.txt文件,你可以使用Google网站管理员工具里Google给出的抓取错误信息自己判断哪些URL需要Disallow.
User-agent: *
Disallow: /blog/?
Disallow: /blog/*.php$
Disallow: /blog/index.php?
Disallow: /blog/wp-content/uploads
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/wp-includes
Disallow: /blog/wp-admin
Disallow: /blog/*/comment-page-*
Disallow: /blog/feed/
Disallow: /blog/*/feed
Disallow: /blog/*/*/feed
Disallow: /blog/page/
Disallow: /blog/author
Disallow: /blog/*/*/page/
Disallow: /blog/wap