一、什么是robots协议?
robots.txt(robots协议)是一个纯文本文件,也是网站的声明文件,当搜索引擎蜘蛛来爬取网站的时候,首先问访问这个robots.txt文件,蜘蛛会根据声明进行抓取指定的内容,屏蔽抓取某些内容。这个是网站与蜘蛛之间的一个协议。所以网站管理者都会在robots.txt文件中声明该网站中不想被robots访问的部分,或者只允许指定的搜索引擎收录指定的内容。很明显robot.txt对我们做seo来说是很重要的。
robots.txt(robots协议)必须放在网站根目录处,才能与搜索引擎蜘蛛监理协议关系。
二、robots协议怎么写?
1、user-agent和Disallow是robot里面的俩个重要的函数。
2、robot.txt的编写及范本:
例如:
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:
User-agent: *
Disallow: /
3、各大搜索引擎的蜘蛛名称
百度蜘蛛:baiduspider
google蜘蛛:googlebot
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
xaltavista蜘蛛:lycos_spider_(t-rex)
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp
4、<meta name=”robots” contect=”all|none|index|noindex|follow|nofollow”>
其中的属性说明如下:
设定为all:文件将被检索,且页面上的链接可以被查询;
设定为none:文件将不被检索,且页面上的链接不可以被查询;
设定为index:文件将被检索;
设定为follow:页面上的链接可以被查询;
设定为noindex:文件将不被检索,但页面上的链接可以被查询;
设定为nofollow:文件将不被检索,页面上的链接可以被查询
原创文章,作者:大BOSS,如若转载,请注明出处:https://www.jiaseo.cn/1229.html