OpenAI 為何使用網絡爬蟲?
我們會使用爬蟲驗證作為 ChatGPT 廣告提交的網頁之安全性。當你提交廣告時,OpenAI 可能會造訪其登入頁面,以確保其符合我們的政策。我們亦可能使用登入頁面的內容,以判定何時向用戶展示該廣告最為相關。
你應允許哪些 OpenAI 爬蟲?
你必須允許 OAI-AdsBot。我們建議同時允許 OAI-AdsBot 及 OAI-SearchBot
OpenAI 爬蟲無法抓取我的網站。我該怎麼辦?
大多數網站都設有多層防護,爬蟲必須先通過這些防護,才能成功存取網頁。我們建議你與工程/資訊保安團隊合作,確認 OpenAI 爬蟲可通過以下各層防護:
1. robots.txt
概覽:robots.txt 檔案會告知爬蟲,是否獲准存取你網站的某些部分。OpenAI 爬蟲會遵守這些規則。如 robots.txt 禁止存取,抓取程序將立即停止。
建議:檢視你的 robots.txt 設定,並確認已明確允許 OpenAI 爬蟲存取相關頁面及路徑。
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. 網絡防護/機械人緩解
概覽:許多網站會使用 Cloudflare、Akamai 或其他網絡防護服務供應商,以防禦 DDoS 攻擊、資料擷取及未經授權的流量。這些系統有時會誤封合法爬蟲,並常返回 403 Forbidden 錯誤。由於 OpenAI 爬蟲可能看似自動化流量模式,除非已明確加入允許名單,否則或會被拒絕。
建議:檢視你的網絡防護或防火牆設定,並在可行情況下將 OpenAI 爬蟲流量加入允許名單,最好以我們的爬蟲 user agent 為依據。你的工程或基建團隊亦應檢查任何自動機械人緩解規則,以確認是否觸發了誤判。
3. 真人驗證/反機械人邏輯
概覽:部分網站會實施額外的應用程式層級檢查,以驗證訪客是否真人(例如:CAPTCHA、JavaScript 挑戰、行為分析或工作階段驗證)。由於 OpenAI 爬蟲屬自動化系統,即使已成功通過較前層的檢查,這些驗證仍可能阻止其存取。
建議:檢視應用程式內任何真人驗證或反自動化邏輯,並在適當情況下豁免 OpenAI 爬蟲,最好將我們的爬蟲 user agent 加入允許名單。
關於穩定 IP 範圍的說明
部分保安系統要求爬蟲流量必須來自穩定且公開記錄的 IP 範圍,才可可靠地加入允許名單。
由於爬蟲基建可能隨時間演變,你的工程團隊不應只依賴日誌中的短期 IP 觀察。相反,我們建議結合以下方式驗證流量:user-agent 識別、已驗證機械人計劃(如支援)、防火牆允許名單、robots.txt 行為,以及供應商層級的機械人驗證系統。
如你必須允許穩定的 IP 範圍清單,請參閱:
關於速率限制的說明
大量批次上載或爬蟲流量突然飆升,有時會觸發自動速率限制或機械人防護系統。
如你懷疑發生速率限制,請要求工程團隊檢查:
HTTP 回應碼(尤其是 429 Too Many Requests)
防火牆或 CDN 日誌
機械人緩解事件
請求節流規則
爬蟲嘗試存取前後時段的流量分析
這有助識別請求是否被基建防護刻意減速或封鎖。
你亦可考慮以較小批次、拉長時間上載廣告。
關於 Cloudflare 的說明
OAI-AdsBot 現已獲 Cloudflare 正式驗證並加入允許名單。
