php教程 -> HTML教程 -> 网站优化笔记 -> robots.txt用法介绍，网站优化

robots.txt用法介绍，网站优化

本篇文章谈一谈robots.txt这个文件的作用及其具体用法，这个对于一个做网站优化的童鞋来说，是必须知道的额！下面就来具体看看 robots 这个文件具体有哪些用法以及他在网站优化中能起到什么作用吧！

robots.txt基本介绍

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容，注意这是一个针对搜索引擎的一个文件。

当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。

另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt写作语法

首先，我们来看一个robots.txt范例：http://php.hhsy.cc/robots.txt

访问以上具体地址，我们可以看到robots.txt的具体内容如下：

User-agent: *
Allow: /
#下列目录除外
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/

以上文本表达的意思是允许所有的搜索机器人访问hh.hhsy.cc站点下的除了 wp-admin/，wp-includes/，wp-contents 这几个目录外其他的所有文件。

具体语法分析：其中#后面文字为注释说明信息；User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录。

下面，我将列举一些robots.txt的具体用法：

允许所有的搜索引擎访问网站所有的部分的robot写法：

User-agent: *
Disallow:

或者也可以建一个空文件 robots.txt 文件，功能同上。

禁止所有搜索引擎访问网站的任何部分的robots写法：

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的某几个部分（下例中的01、02、03目录）的robots写法：

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问（如下例中禁止百度引擎抓取）的robots写法：

User-agent: Baiduspider
Disallow: /

注意：以上写法只禁止了百度搜索引擎的抓取，其他搜索引擎还是可以来抓取的。

只允许某个搜索引擎的访问（如下例中只允许谷歌搜索引擎抓取站点内容）的robots写法：

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

禁止搜索引擎抓取自己网站图片（禁止图片抓取）的robots写法：

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

如果你的网站有动态和静态两种形式的网页，你只允许抓取静态页面（禁止动态页面）的robots写法：

User-agent: *
Disallow: /*?*

下面顺便将各大搜索引擎的蜘蛛的名字分享一下（这里仅列举我们国内比较常用的一些搜索引擎）：

google蜘蛛：Googlebot
百度蜘蛛：Baiduspider
搜狗蜘蛛：sogou spider
360蜘蛛：360Spider
yahoo蜘蛛：Yahoo!slurp
alexa蜘蛛：ia_archiver
bing蜘蛛：MSNbot
Soso蜘蛛：Sosospider
Google Adsense蜘蛛：Mediapartners-Google
有道蜘蛛：YoudaoBot

您可能感兴趣的文章

转载请注明出处：php教程

本文永久地址：//seo/75.html

最后修改时间：2013年05月25日 21时06分29秒作者：-hsy

上一篇：MySql实现随机查询数据

下一篇：PHP获得指定日期所在星期,所在月的第一天和最后一天