站优云网络About Us

上海站优云网络科技有限公司是一家专业从事互联网营销推广服务的公司,公司自创立至今一直秉着“以人为本”“以客户利至上益”的理念…[详情]

优化案例Case

  • 1
  • 2

行业动态Thematic reading

  • 创建robots.txt注意事项
  • 来源:上海站优云网络科技有限公司 发布时间:2018-03-09 16:00 浏览:155

一:robots基础知识

 

robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫扫除规范“(Robots Exclusion Protocol),网站经过robots协议告诉搜索引擎哪些页面能够抓取,哪些页面不能够抓取。

 

Robot.txt的效果?

 

能够让蜘蛛更高效的匍匐网站

 

能够阻挠蜘蛛匍匐动态页面,从而处理重复录入的问题

 

能够削减蜘蛛匍匐无效页面,节约服务器带宽

 

能够屏蔽搜索引擎屏蔽一些隐私页面或许临时页面

 

怎么创立robots.txt文件呢?

 

右击桌面——新建文本文档——重命名为robots.txt(一切文件有必要小写)——编写规矩——用FTP把文件上(放到根目录下)传到空间

 

创立robots.txt需求留意的知识点:

 

1、有必要是txt结束的纯文本文件

 

2、文件名一切字母有必要是小写

 

3、文件有必要要放在根目录下

 

4、文件内的冒号有必要是英文半角状态下

 

二:robots参数解说

 

User-agent

 

首要效果:用于描绘搜索引擎蜘蛛的姓名

 

举列:

 

1、描绘一切蜘蛛

 

User-agent:*

 

2、描绘百度蜘蛛

 

User-agent:BaiduSpider

 

百度:BaiduSpider

 

谷歌:Googlebot

 

搜狗:Sogou web spider

 

好搜:360Spider

 

MSN:MSNBot

 

有道:YoudaoBot

 

宜搜:EasouSpider

 

User-agent技巧:

 

1、当robots.txt不为空的时分,有必要至少有一条User-adent记载

 

2、相同的姓名,只能有一条(例如User-agent:*),可是不同蜘蛛,能够有多条记载(例如:User-agent:Baiduspider和User-agent:Googlebot)。

 

Disallow

 

首要效果:用于描绘不答应搜索引擎匍匐和抓取的URL。

 

运用技巧:

 

1、在robots.txt中至少要有一条Disallow

 

2、Disallow记载为空,则表明网站一切页面都答应被抓取。

 

3、运用Disallow,每个目录有必要独自分隔声明

 

4、留意Disallow:/abc/(abc目录底下的目录不答应抓取,可是目录底下的html答应抓取)和Disallow:/abc(abc目录底下的目录跟html都不答应被抓取)的差异。


准备开展业务? 开启搜索营销 成为代理商