OpenAI 为什么使用网络爬虫?
我们使用网络爬虫来验证在 ChatGPT 中作为广告提交的网页是否符合安全要求。当你提交广告时,OpenAI 可能会访问落地页,以确保其符合相关政策要求。我们还可能提取落地页内容,判断在何种场景下向用户展示该广告的匹配度最高。
应允许哪些 OpenAI 网络爬虫?
你必须放行 OAI-AdsBot。我们建议同时放行 OAI-AdsBot 和 OAI-SearchBot。
OpenAI 爬虫无法访问我的网站。该怎么办?
多数网站都会设置多层防护机制,爬虫需要逐层通过才能正常访问网页。请协同工程或安全团队核验,确保 OpenAI 爬虫可正常通过以下所有防护层级。
1. robots.txt
robots.txt 文件用于告知爬虫,网站的哪些路径允许访问、哪些禁止访问。OpenAI 爬虫会遵守这些规则。如果 ots.txt 文件禁止对应访问,爬虫抓取操作会立刻终止。
请检查您的 robots.txt 配置,确保已明确放行 OpenAI 爬虫访问相关页面与路径。例如:User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /
2. 网站防护与机器人拦截机制
不少网站会接入 Cloudflare、Akamai 等网站防护服务商,抵御 DDoS 攻击、恶意爬取与非法访问流量。这类防护系统可能误拦截合规爬虫,通常会返回 403 Forbidden 错误码。OpenAI 爬虫的流量特征与自动化访问行为相近,若未单独加入允许列表,访问请求会被拦截。
核查网站防护、防火墙配置,在条件允许时将 OpenAI 爬虫流量加入允许列表,优先通过爬虫用户代理进行放行配置。工程或运维团队还需排查所有自动化机器人拦截规则,避免规则产生误判。
3. 真人校验与反机器人逻辑
部分网站会在应用层增设校验机制,以验证访问者是否为真人,例如 CAPTCHA、JavaScript 校验、行为分析、会话校验等。由于 OpenAI 爬虫属于自动化程序,即使通过前置所有防护层级,仍会被这类校验机制拦截。
请检查应用内所有真人校验、反自动化访问逻辑,在合适场景下豁免 OpenAI 爬虫,理想方案是将爬虫用户代理加入允许列表。
关于稳定 IP 地址范围的说明
部分安全系统要求爬虫流量来自稳定、公开公示的 IP 地址范围,才能稳定放行。由于爬虫底层服务器网段会随运维调整发生变动,工程团队不应仅依靠日志内短期记录的 IP 作为放行依据。建议结合多重方式校验流量:用户代理识别、服务商支持的官方机器人认证、防火墙允许列表、robots.txt 访问规则、服务商平台机器人校验体系。
如果你必须配置固定 IP 地址范围放行清单,请查阅 https://openai.com/searchbot.json 和 https://openai.com/adsbot.json。
关于速率限制的说明
大批量上传或爬虫流量突然激增可能触发自动自动速率限制或机器人防护系统。
如果你怀疑触发了速率限制,请让工程团队核查爬虫发起访问时段的 HTTP 响应码(重点查看 429 Too Many Requests 请求过多)、防火墙/CDN 日志、机器人拦截事件、请求限流规则与流量分析报表。通过以上信息可判断访问请求是否被底层防护机制主动限流或拦截。
你也可以考虑将广告分成较小批次,并在更长的时间内上传。
关于 Cloudflare 的说明
OAI-AdsBot 已通过 Cloudflare 官方认证,默认纳入平台允许列表。
爬虫与落地页常见问题
广告审核需要使用哪款爬虫?
ChatGPT 广告的落地页核验与审核必须使用 OAI-AdsBot。推荐同步放行 OAI-SearchBot,该爬虫可辅助 OpenAI 解析公开网页内容;但广告主需优先保障 OAI-AdsBot 可正常访问,用于广告合规核验。
能否通过人工方式跳过爬虫核验流程?
请勿依赖人工跳过方案。你需要修复 robots.txt、WAF、CDN、机器人拦截、身份校验、速率限制等拦截规则,使落地页可被 OAI-AdsBot 抓取。落地页恢复可抓取后,相关广告可能需要重新上传或提交审核。
工程团队应优先排查哪些内容?
优先核查:落地页是否向 OAI-AdsBot 返回正常 HTTP 响应、robots.txt 是否放行对应路径,以及 WAF、CDN、机器人拦截、JavaScript 校验、人机验证、身份校验、地域访问规则是否拦截自动化访问。
是否支持将应用商店链接、深度链接、非网页类地址设为落地页?
请尽量选用可直接访问的网页落地页。应用商店链接、深度链接、文档文件,或是需要客户端、登录、限定地区访问、包含不兼容重定向的地址,无法提供充足可抓取内容完成核验与广告审核。
何时需要重新上传广告或再次提交审核?
修复爬虫访问权限后,如果广告状态未自动更新,请重新上传或提交受影响广告。在批量上传广告场景下,团队验证修复方案期间,可分小批次提交,降低触发速率限制、机器人防护机制的概率。
