robots.txt基本介绍
编辑:admin 时间:2009-7-8 14:38:23 来自:北京蓝网网络技术有限公司
robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
1. 允许所有SE收录本站:robots.txt为空就可以,什么都不要写。或者这样写
User-agent: *
Disallow:
2. 禁止所有SE收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/
3. 禁止某个SE收录本站,例如禁止百度蜘蛛:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收录本站:
User-agent: *
Disallow: /
常见搜索引擎机器人Robots名字
名称 搜索引擎
Baiduspider http://www.baidu.com
Googlebot http://www.google.com
MSNBOT http://search.msn.com
ia_archiver http://www.alexa.com
原创文章如转载请注明:转载自『