本篇文章谈一谈robots.txt这个文件的作用及其具体用法,这个对于一个做网站优化的童鞋来说,是必须知道的额!下面就来具体看看 robots 这个文件具体有哪些用法以及他在网站优化中能起到什么作用吧!
robots.txt基本介绍
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容,注意这是一个针对搜索引擎的一个文件。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写作语法
首先,我们来看一个robots.txt范例:http://php.hhsy.cc/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
User-agent: *
Allow: /
#下列目录除外
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
以上文本表达的意思是允许所有的搜索机器人访问hh.hhsy.cc站点下的除了 wp-admin/,wp-includes/,wp-contents 这几个目录外其他的所有文件。
具体语法分析:其中#后面文字为注释说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
下面,我将列举一些robots.txt的具体用法:
允许所有的搜索引擎访问网站所有的部分的robot写法:
User-agent: *
Disallow:
或者也可以建一个空文件 robots.txt 文件,功能同上。
禁止所有搜索引擎访问网站的任何部分的robots写法:
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的某几个部分(下例中的01、02、03目录)的robots写法:
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(如下例中禁止百度引擎抓取)的robots写法:
User-agent: Baiduspider
Disallow: /
注意:以上写法只禁止了百度搜索引擎的抓取,其他搜索引擎还是可以来抓取的。
只允许某个搜索引擎的访问(如下例中只允许谷歌搜索引擎抓取站点内容)的robots写法:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止搜索引擎抓取自己网站图片(禁止图片抓取)的robots写法:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
如果你的网站有动态和静态两种形式的网页,你只允许抓取静态页面(禁止动态页面)的robots写法:
User-agent: *
Disallow: /*?*
下面顺便将各大搜索引擎的蜘蛛的名字分享一下(这里仅列举我们国内比较常用的一些搜索引擎):
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
搜狗蜘蛛:sogou spider
360蜘蛛:360Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot