什么是robots协议?robots协议怎么写?

一、什么是robots协议

robots.txt(robots协议)是一个纯文本文件,也是网站的声明文件,当搜索引擎蜘蛛来爬取网站的时候,首先问访问这个robots.txt文件,蜘蛛会根据声明进行抓取指定的内容,屏蔽抓取某些内容。这个是网站与蜘蛛之间的一个协议。所以网站管理者都会在robots.txt文件中声明该网站中不想被robots访问的部分,或者只允许指定的搜索引擎收录指定的内容。很明显robot.txt对我们做seo来说是很重要的。

什么是robots协议?robots协议怎么写?

robots.txt(robots协议)必须放在网站根目录处,才能与搜索引擎蜘蛛监理协议关系。

二、robots协议怎么写?

什么是robots协议?robots协议怎么写?

1、user-agent和Disallow是robot里面的俩个重要的函数。

2、robot.txt的编写及范本:

例如:

允许所有的robot访问

User-agent: *

Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *

Disallow: /01/

Disallow: /02/

Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot

Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler

Disallow:

User-agent: *

Disallow: /

3、各大搜索引擎的蜘蛛名称

百度蜘蛛:baiduspider

google蜘蛛:googlebot

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

xaltavista蜘蛛:lycos_spider_(t-rex)

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler/

inktomi蜘蛛:slurp

4、<meta name=”robots” contect=”all|none|index|noindex|follow|nofollow”>

其中的属性说明如下:

设定为all:文件将被检索,且页面上的链接可以被查询;

设定为none:文件将不被检索,且页面上的链接不可以被查询;

设定为index:文件将被检索;

设定为follow:页面上的链接可以被查询;

设定为noindex:文件将不被检索,但页面上的链接可以被查询;

设定为nofollow:文件将不被检索,页面上的链接可以被查询

原创文章,作者:大BOSS,如若转载,请注明出处:https://www.jiaseo.cn/1229.html

(1)
上一篇 2019年1月31日 下午9:35
下一篇 2019年2月21日 下午10:03

相关推荐