なぜ OpenAI はウェブクローラーを使用するのですか?
ChatGPT に広告として送信されたウェブページの安全性を検証するために、クローラーを使用しています。広告を送信すると、OpenAI はランディングページにアクセスし、当社のポリシーに準拠していることを確認する場合があります。また、ユーザーにその広告を表示する最も適切なタイミングを判断するために、ランディングページのコンテンツを利用する場合があります。
どの OpenAI クローラーを許可すべきですか?
OAI-AdsBot は許可する必要があります。さらに OAI-AdsBot と OAI-SearchBot の両方を許可することをおすすめします。
OpenAI のクローラーが私のウェブサイトをクロールできません。どうすればよいですか?
ほとんどのウェブサイトには、クローラーがウェブページに正常にアクセスできるようになるまでに、複数の保護層があります。OpenAI のクローラーが以下の各層を通過できることを、エンジニアリング/セキュリティチームと協力して検証することをお勧めします。
1. robots.txt
概要:robots.txt ファイルは、クローラーがウェブサイトの特定の部分にアクセスしてよいかどうかを示します。OpenAI のクローラーはこれらのルールに従います。robots.txt でアクセスが許可されていない場合、クロールは直ちに停止します。
推奨事項:robots.txt の設定を確認し、OpenAI クローラーが該当するページとパスにアクセスすることが明示的に許可されていることを確認してください。
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. ウェブ保護/ボット対策
概要:多くのウェブサイトでは、DDoS 攻撃、スクレイピング、不正なトラフィックなどからサイトを保護するために、Cloudflare や Akamai などのウェブ保護プロバイダーのサービスを利用しています。これらのシステムは正規のクローラーを誤ってブロックしてしまい、その結果 403 Forbidden エラーが返されることがよくあります。OpenAI のクローラーは自動化されたトラフィックと似た挙動を示すことがあるため、明示的に許可リストに登録していない場合、アクセスが拒否される可能性があります。
推奨事項:ウェブ保護またはファイアウォールの設定を確認し、可能な場合は OpenAI クローラーのトラフィックを許可リストに追加してください。許可設定は、当社のクローラーのユーザーエージェントを基準に行うことをお勧めします。また、エンジニアリングチームやインフラチームは、誤検知を引き起こしている可能性のある自動ボット対策ルールについても確認してください。
3. 人間による確認/ボット対策ロジック
概要:一部のウェブサイトでは、訪問者が人間であることを確認するために、アプリケーションレベルで追加チェック(CAPTCHA、JavaScript チャレンジ、行動分析、セッション検証など)を実施しています。OpenAI クローラーは自動化されたシステムであるため、クローラーが前段階のレイヤーを正常に通過した場合でも、これらの追加チェックによってアクセスがブロックされることがあります。
推奨事項:アプリケーション内に実装されている人間による検証や自動化対策のロジックを見直し、必要に応じて OpenAI クローラーを対象外に設定してください。特に、当社のクローラーのユーザーエージェントを許可リストに追加する方法を推奨します。
固定 IP アドレス範囲に関する注意事項
一部のセキュリティシステムでは、クローラーのトラフィックを確実に許可リストへ登録するために、そのトラフィックが公開済みの固定 IP アドレス範囲から発信されることを要件としています。
クローラーのインフラストラクチャは将来的に変更される可能性があるため、エンジニアリングチームはログから短期間に確認された IP アドレス情報情報のみに依存しないようにしてください。代わりに、ユーザーエージェントの識別、認証済みボットプログラム(対応している場合)、ファイアウォールの許可リスト、robots.txt の挙動、プロバイダーが提供するボット検証システムを組み合わせてトラフィックを検証することをお勧めします。
固定 IP アドレス範囲のリストを許可する必要がある場合は、以下をご参照ください。
レート制限に関する注意
大規模な一括アップロードやクローラートラフィックの急増により、自動レート制限やボット保護システムが作動することがあります。
レート制限が発生している疑いがある場合は、エンジニアリングチームに以下の確認を依頼してください。
HTTP レスポンスコード(特に 429 Too Many Requests エラー)
ファイアウォールまたは CDN のログ
ボット対策イベント
リクエストスロットルルール
クローラーがアクセスを試みた時間帯のトラフィック分析
これにより、リクエストがインフラストラクチャ保護機能によって意図的に遅延またはブロックされているかどうかを特定するのに役立ちます。
広告を小さなバッチに分けて、より長い期間にわたってアップロードすることも検討してください。
Cloudflare に関する注意
OAI-AdsBot は Cloudflare によって正式に検証済みボットとして認定され、許可リストに登録されました。
