即时测试您的 robots.txt 规则。粘贴文件,选择爬虫,即可准确看到哪些 URL 被允许或阻止。
| Line | Directive | Value | Applies To | Status |
|---|
一个 robots.txt 文件是放置在网站根目录的简单文本文档,用于向搜索引擎爬虫传达爬取指令。当爬虫(如 Googlebot)访问您的站点时,首先检查的是 https://yoursite.com/robots.txt。该文件告知爬虫哪些页面或目录可以访问,哪些应当跳过。这一机制称为 Robots Exclusion Protocol,自 1994 年起即被采用的标准。
虽然 robots.txt 并不强制访问控制(不良爬虫可能会忽略),但所有主流搜索引擎和可信的 AI 爬虫都会遵守。正确配置 robots.txt 对于控制被索引内容、保护敏感目录、管理爬取预算以及防止 AI 模型使用您的内容进行训练至关重要。
此工具根据 Googlebot 所遵循的相同规则解析您的 robots.txt,包括以下关键行为:
User-agent: * 通配符节。*) 匹配任意字符序列。美元符号 ($) 将模式锚定到 URL 末尾。例如,Disallow: /*.pdf$ 会阻止所有以 .pdf 结尾的 URL。User-agent、Disallow)不区分大小写,但 URL 路径匹配时区分大小写。随着大语言模型的兴起,许多站点所有者希望阻止其内容被用于训练数据。主要 AI 公司已推出可阻止的特定用户代理字符串:
您可以阻止所有 AI 爬虫,同时仍允许搜索引擎爬虫索引您的站点。使用此测试工具验证规则是否按预期工作,并使用我们的 Robots.txt 生成器 从零构建格式正确的文件。
即使是有经验的站长也会在 robots.txt 中犯下以下错误:
Disallow: /admin 会阻止 /admin 和 /admin/page,但也会阻止 /administrator。使用 /admin/ 可更精确。将此测试工具与我们的 Schema 生成器 和 SERP 预览器 配合使用,以确保搜索引擎既能访问您的内容,又能以吸引人的方式展示。
robots.txt 文件是放置在网站根目录的纯文本文件(例如 example.com/robots.txt),用于告知搜索引擎爬虫哪些页面可以访问、哪些不可以访问。它遵循 Robots Exclusion Protocol,是爬虫在扫描站点前首先检查的文件。
robots.txt 支持两种通配符字符:星号 (*) 匹配任意字符序列,美元符号 ($) 将匹配锚定到 URL 末尾。例如,"Disallow: /*.pdf$" 会阻止所有以 .pdf 结尾的 URL,而 "Disallow: /private*" 会阻止所有以 /private 开头的 URL 路径。
这取决于您的内容策略。阻止 AI 爬虫可防止您的内容被用于训练语言模型。许多出版商会阻止这些爬虫以保护原创内容,而有些则允许以获得更广的曝光。您可以在阻止 AI 爬虫的同时,仍然允许传统搜索引擎爬虫访问。
并非完全阻止。robots.txt 阻止爬虫读取页面内容,但如果其他站点链接到该 URL,Google 仍可能对其进行索引。结果会显示 URL,但说明不可用。若想彻底阻止索引,需要使用 "noindex" 元标签或 X-Robots-Tag HTTP 头,配合或替代 robots.txt。