robots.txt系统化学习指南
笔者综合多篇权威文献及百度官方文档,发现部分教程存在解释简略、新手理解困难等问题。本文系统性梳理关键知识点,力求精准传达技术要点。
▍ 核心概念与存在形式
robots.txt本质是网站与搜索引擎之间的抓取协议。当搜索引擎爬虫(如百度蜘蛛BaiduSpider)访问站点时,首要操作是检测根目录下是否存在该文件:
> 关键规范(90%新手易错点):
> 1. 文件必须置于网站根目录(例如 `www.yoursite.com/robots.txt`)
▍ 指令参数深度解析
2. Disallow:定义禁止抓取的URL路径
| 写法示例 | 实际效果 |
| `Disallow: /` | 完全禁止抓取全站内容 |
| `Disallow: /admin/` | 禁止抓取/admin/目录(含子目录) |
| `Disallow: /.jpg$` | 拦截所有.jpg格式文件($表路径终止符) |
| 留空 `Disallow:` | 全站开放抓取(等效于不设置robots.txt)

> ?? 高频误区:
▍ 国内主流爬虫标识库
网站流量异常消耗常源于低效爬虫抓取,精准控制需识别爬虫ID:
| 搜索引擎 | 爬虫标识 |
| 百度 | BaiduSpider |
| 搜狗 | Sogou Spider |
| 360搜索 | 360Spider |
| 头条搜索 | Bytespider |
▍ 高频场景实战配置
场景1:全站封闭(禁止所有引擎抓取)
```robots
Disallow: /
```
场景2:全站开放(等效无限制)
```robots
Disallow:
或
Allow: /
```
场景3:定向屏蔽百度爬虫
```robots
Disallow: /
```
场景4:仅允许百度+谷歌抓取
```robots
Disallow:
Disallow:
Disallow: / 其他引擎禁止访问
```
场景5:拦截特定目录与文件类型
```robots
Disallow: /temp/ 屏蔽临时目录
Disallow: /backup/ 屏蔽备份目录
Disallow: /.jpg$ 禁止抓取JPG图片
Disallow: /.zip$ 禁止抓取压缩文件
```
> ?? 配置铁律: