OpenAI 为什么使用网络爬虫?
我们使用网络爬虫来验证在 ChatGPT 中作为广告提交的网页是否符合安全要求。当提交广告时,OpenAI 可能会访问着陆页,以确保其符合相关政策要求。我们还可能使用着陆页内容,以判断在何时向用户展示该广告最为相关。
应允许哪些 OpenAI 网络爬虫?
必须允许 OAI-AdsBot。建议同时允许 OAI-AdsBot 和 OAI-SearchBot
OpenAI 爬虫无法访问我的网站。该怎么办?
大多数网站在允许爬虫成功访问网页之前,会设置多层访问保护机制。建议与工程或安全团队合作,确认 OpenAI 爬虫能够通过以下各层访问控制:
1. robots.txt
概述:robots.txt 文件用于指示爬虫是否允许访问网站的特定路径。OpenAI 爬虫会遵守这些规则。如果 robots.txt 中禁止访问,爬取将立即停止。
建议:请检查您的 robots.txt 配置,并确认 OpenAI 爬虫已被明确允许访问相关页面和路径。
User-agent: OAI-SearchBot
允许:/
User-agent: OAI-AdsBot
允许:/
2. 网络防护/Bot 缓解
概述:许多网站使用 Cloudflare、Akamai 等网络防护服务来防御 DDoS 攻击、爬取及未经授权的流量。这些系统可能会误拦截合法爬虫,通常会返回 403 Forbidden 错误。由于 OpenAI 爬虫可能与自动化流量模式相似,除非将其加入允许列表,否则可能会被拒绝访问。
建议:检查网络防护或防火墙配置,并在可能情况下将 OpenAI 爬虫流量加入允许列表,优先基于爬虫用户智能体进行配置。工程或基础设施团队还应检查可能触发误判的自动化机器人缓解规则。
3. 真人验证 / 反机器人逻辑
概述:一些网站会在应用层实施额外检查,以验证访问者是否为真人(例如 CAPTCHA、JavaScript 挑战、行为分析或会话验证)。由于 OpenAI 爬虫属于自动化系统,即使已成功通过前置层级,这些检查仍可能阻止访问。
建议:请检查应用中实现的任何人机验证或反自动化逻辑,并确保在适当情况下豁免 OpenAI 爬虫,理想做法是将我们的爬虫用户代理列入允许列表。
关于稳定 IP 地址范围的说明
某些安全系统要求爬虫流量必须来自稳定且公开记录的 IP 地址范围,才能可靠加入允许列表。
由于爬虫基础设施可能随时间变化,工程团队应避免仅依赖日志中的短期 IP 观测结果。建议结合以下方式验证流量:用户智能体识别、经过验证的机器人程序(在支持的情况下)、防火墙允许列表、robots.txt 行为以及提供商级别的机器人验证系统。
如需允许稳定 IP 范围,请参考:
关于速率限制的说明
大批量上传或爬虫流量突然激增可能触发自动自动速率限制或机器人防护系统。
如果您怀疑正在发生速率限制,请让您的工程团队检查:
HTTP 响应状态码(尤其是 429 请求过多)
防火墙或 CDN 日志
Bot 缓解事件
请求限流规则
爬虫尝试访问前后的流量分析
这有助于判断请求是否被基础设施防护机制有意限速或阻止。
也可考虑将广告上传拆分为更小批次,并分散在更长时间内进行。
关于 Cloudflare 的说明
OAI-AdsBot 现已由 Cloudflare 正式验证并加入允许列表。
