• 什么是SEO?SEO叫做搜索引擎优化,目的是为了提升在搜索引擎中的收录数量以及排名,最终从搜索引擎中获取免费的目标流量。

徐州seo顾问:robots.txt如何起作用?

seo常见问题 广州seo顾问 10个月前 (01-22) 347次浏览 0个评论 扫描二维码

robots.txt是一份纯文字档案,用以告诉网路爬虫程式,网站上的哪些特定页面禁止爬取。  

有些时候,网站主并不希望某些页面被抓取,例如依不同条件排序的商品列表页面、某些无意义的页面,或是仍在测试阶段的页面等等,为避免搜寻引擎因为爬取这些页面而耗费网站其他部分被抓取的时间,或是因爬取某些页面而造成伺服器流量的负担,便可以利用robots.txt文件来指示这些网路爬虫(又称作网路蜘蛛、爬虫程式、网路机器人、检索器)。  

robots.txt如何起作用

搜寻引擎的主要任务可以大概分成几项:  

爬取(检索)网路上的各个网站并发现其中的网页内容  

将这些不同的网页编成索引(将其收录)  

当使用者搜寻时,将索引中的网页以适当的顺序呈现  

在开始爬取网站的内容前,搜寻引擎的网路爬虫会先到网站根目录下寻找这个robots.txt纯文字档,并根据其中所给予的指示,进行网站内容的爬取。然而,robots.txt文件中的指示并不是强制的,Googlebot等较为正派的网路爬虫会按照文件中的指示行动,但并不是所有网路爬虫都会这么做。并且应注意是否有某些指示不为特定搜爬程式採用。  

当robots.txt文件不存在或是没有内容时,都代表搜寻引擎可以抓取网站的所有内容。  

搜寻引擎的检索(crawling)跟索引(indexing)属于不同的程序,如果希望网页不被检索,应使用robots.txt;若希望网页不被索引,则应使用noindexmeta标籤或其他方式。  

在robots.txt中禁止爬取某个网页,对遵循指示的搜寻引擎来说,该页就是没有内容的,可能因此让其排名下降或消失于搜寻结果,但并无法确保页面不会出现在搜寻结果中,搜寻引擎仍有可能透过其他导入连结进入,使得页面被索引。


本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址