• 什么是SEO?SEO叫做搜索引擎优化,目的是为了提升在搜索引擎中的收录数量以及排名,最终从搜索引擎中获取免费的目标流量。

长沙seo推广:robots.txt的写法与语法详解

seo常见问题 广州seo顾问 10个月前 (01-22) 404次浏览 0个评论 扫描二维码

长沙seo推广:robots.txt的写法与语法详解

robots.txt的写法:

下面以www.example.com为例,列出一些常见的写法,提供参考。

禁止抓取整个网站

如下的规则会禁止所有爬虫程式抓取整个网站(但不包括Google的Adsbot检索器)。

User-agent:*

Disallow:/

允许抓取整个网站

如下的规则会允许所有爬虫程式抓取整个网站的内容,没有建立robots.txt档案或是该档案没有内容也会有一样的效果。

User-agent:*

Disallow:

允许单一爬虫程式抓取整个网站

如下的规则会禁止baiduspider以外的爬虫程式抓取整个网站的内容。

User-agent:baiduspider

Allow:/

User-agent:*

Disallow:/

禁止特定爬虫程式抓取特定目录

如下的规则会阻止Google的检索程式(Googlebot)抓取以www.example.com/folder1/为开头的所有网页内容。

User-agent:Googlebot

Disallow:/folder1/

禁止特定爬虫程式抓取特定页面

如下的规则会阻止Bing的检索程式(Bingbot)抓取www.example.com/folder1/page1.html此页面的内容

User-agent:Bingbot

Disallow:/folder1/page1.html

指定特定字串结尾的网址

如下的规则可以封锁任何以.gif为结尾的网址,亦可以应用在特定类型档案的禁止。

User-agent:Googlebot

Disallow:/*.gif$

robots.txt语法详解:

User-agent

必要项目,你可以在每项规则中指定一或多个user-agent,从RobotsDatabase与Google检索器清单中可以找到大部分的user-agent名称。此指令可以搭配*万用字元使用,例如,User-agent:*的范围即包括了Adsbot以外的所有爬虫程式。

注:Adsbot为Google用以评估到达网页体验的检索程式,为避免影响广告,系统会忽略全面排除的项目,所以若要防止Adsbot爬取网页,需特别针对它撰写规则

Disallow

每项规则至少要有一个Disallow或Allow的指令,Disallow用以表示禁止爬虫程式的项目。若为网页,应撰写完整的相对路径;若为目录,则必须以/作为结尾。

Allow

每项规则至少要有一个Disallow或Allow的指令,Allow用以表示允许爬虫程式的项目,可覆盖以Disallow禁止的项目。若为网页,应撰写完整的相对路径;若为目录,则必须以/作为结尾。

Crawl-delay

非必要项目,用以告诉在开始抓取网页前延迟多久,单位为毫秒。只是Googlebot会忽略这项规则,因为在GoogleSearchConsole中已经有关于限制检索频率的设定。

Sitemap

非必要,你可以透过这个指令指出XML网站地图的位置,也可以同时提供多个网站地图,分行列出即可,此项指令应使用绝对路径。

在上面提到的Disallow与Allow指令中,可使用正规表达式裡面的*与$字元,用途如下:

*可代表0或一个以上的任何有效字元。

$代表网址结束。


本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址