Leitfaden für Werbetreibende zum Zulassen von OpenAI-Webcrawlern

Erfahre, wie du deine Anzeigen-Landingpages für OpenAI zugänglich machst und häufige Zugriffsprobleme behebst.

Warum setzt OpenAI Webcrawler ein?

Wir verwenden Crawler, um die Sicherheit von Webseiten zu überprüfen, die als Anzeigen auf ChatGPT eingereicht werden. Wenn du eine Werbeanzeige einreichst, kann OpenAI die Landingpage aufrufen, um sicherzustellen, dass sie unseren Richtlinien entspricht. Wir verwenden möglicherweise auch Inhalte der Landing-Page, um zu bestimmen, wann es am relevantesten ist, den Nutzern die Anzeige zu präsentieren.

Welche OpenAI-Crawler solltest du zulassen?

Du musst OAI-AdsBot zulassen. Wir empfehlen, sowohl OAI-AdsBot als auch OAI-SearchBot zuzulassen.

OpenAI-Crawler können meine Website nicht crawlen. Was kann ich jetzt tun?

Die meisten Websites verfügen über mehrere Schutzebenen, bevor ein Crawler erfolgreich auf eine Webseite zugreifen kann. Arbeite mit deinem Engineering- oder Sicherheitsteam zusammen, um zu überprüfen, ob OpenAI-Crawler jede der folgenden Ebenen passieren können.

1. robots.txt

Die robots.txt-Datei teilt Crawlern mit, ob sie auf bestimmte Bereiche deiner Website zugreifen dürfen. OpenAI-Crawler beachten diese Regeln. Wenn der Zugriff in der robots.txt untersagt ist, wird Crawling sofort beendet.

Überprüfe deine robots.txt-Konfiguration und bestätige, dass OpenAI-Crawler ausdrücklich auf die relevanten Seiten und Pfade zugreifen dürfen. Zum Beispiel: User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Webschutz und Bot-Abwehr

Viele Websites nutzen Dienste wie Cloudflare, Akamai oder andere Anbieter von Webschutzlösungen, um sich gegen DDoS-Angriffe, Scraping und nicht autorisierten Datenverkehr zu schützen. Diese Systeme können legitime Crawler fälschlicherweise blockieren, wobei häufig 403-Verboten-Fehler zurückgegeben werden. Da OpenAI-Crawler Mustern automatisierten Datenverkehrs ähneln können, können sie blockiert werden, sofern sie nicht ausdrücklich auf die Zulassungsliste gesetzt wurden.

Überprüfe deine Webschutz- oder Firewall-Konfiguration und setze den Datenverkehr von OpenAI-Crawlern nach Möglichkeit auf die Zulassungsliste, idealerweise basierend auf unseren Crawler-Benutzeragenten. Dein Engineering- oder Infrastrukturteam sollte außerdem alle automatisierten Regeln zur Bot-Abwehr überprüfen, die Fehlalarme auslösen könnten.

3. Menschliche Verifizierung und Anti-Bot-Logik

Einige Websites implementieren zusätzliche Prüfungen auf Anwendungsebene, um zu überprüfen, ob ein Besucher ein Mensch ist, wie etwa CAPTCHAs, JavaScript-Herausforderungen, Verhaltensanalyse oder Sitzungsvalidierung. Da OpenAI-Crawler automatisierte Systeme sind, können diese Prüfungen den Zugriff blockieren, selbst wenn der Crawler vorgelagerte Ebenen erfolgreich passiert.

Überprüfe jegliche in deiner Anwendung implementierte Logik zur Verifizierung durch Menschen oder zur Abwehr von Automatisierung und stelle sicher, dass OpenAI-Crawler gegebenenfalls ausgenommen sind, idealerweise indem du unsere Crawler-User-Agents auf die Zulassungsliste setzt.

Ein Hinweis zu stabilen IP-Adressbereichen

Einige Sicherheitssysteme erfordern, dass Crawler-Traffic aus stabilen, öffentlich dokumentierten IP-Adressbereichen stammt, bevor der Datenverkehr zuverlässig auf eine Zulassungsliste gesetzt werden kann. Da sich die Crawler-Infrastruktur im Laufe der Zeit weiterentwickeln kann, solltest du vermeiden, dich ausschließlich auf kurzfristige IP-Beobachtungen aus Protokollen zu verlassen. Stattdessen validiere den Datenverkehr durch eine Kombination aus User-Agent-Identifikation, verifizierten Bot-Programmen, sofern unterstützt, Firewall-Zulassungslisten, robots.txt-Verhalten und Bot-Verifizierungssystemen auf Anbieterebene.

Wenn du eine stabile Liste von IP-Adressbereichen zulassen musst, ziehe https://openai.com/searchbot.json und https://openai.com/adsbot.json heran.

Ein Hinweis zur Ratenbegrenzung

Große Batch-Uploads oder plötzliche Spitzen im Crawler-Verkehr können manchmal automatisierte Drosselungsmechanismen oder Bot-Schutzsysteme auslösen.

Wenn du vermutest, dass eine Drosselung (Rate Limiting) auftritt, bitte dein Engineering-Team, die HTTP-Antwortcodes zu überprüfen, insbesondere den Statuscode 429 (Zu viele Anfragen), sowie Firewall- oder CDN-Protokolle, Bot-Abwehrereignisse, Regeln zur Anfragedrosselung und Traffic-Analysen für den Zeitraum, in dem der Crawler versucht hat, Zugriff zu erhalten. Dies kann dabei helfen, zu erkennen, ob Anfragen durch Schutzmechanismen der Infrastruktur gezielt verlangsamt oder blockiert werden.

Du kannst auch erwägen, Anzeigen über einen längeren Zeitraum hinweg in kleineren Bündeln hochzuladen.

Ein Hinweis zu Cloudflare

OAI-AdsBot ist offiziell von Cloudflare verifiziert und auf die Positivliste gesetzt.

Crawler- und Landingpage-FAQ

Welcher Crawler ist für die Anzeigenüberprüfung erforderlich?

OAI-AdsBot ist für die Validierung und Überprüfung von Landingpages für ChatGPT Ads erforderlich. OAI-SearchBot wird empfohlen, da er OpenAI dabei helfen kann, öffentliche Webinhalte zu verstehen, aber OAI-AdsBot ist der Crawler, dem Werbetreibende für die Anzeigenbereitschaft Priorität einräumen sollten.

Kannst du die manuelle Umgehung der Crawler-Validierung unterstützen?

Verlass dich nicht auf eine manuelle Umgehung. Sorge dafür, dass die Landingpage von OAI-AdsBot gecrawlt werden kann, indem du robots.txt korrigierst, WAF-, CDN-, Bot-Abwehr-, Authentifizierungs- und Ratenlimit-Blockierungen. Anzeigen müssen möglicherweise erneut hochgeladen oder erneut zur Überprüfung eingereicht werden, nachdem die Landingpage zugänglich ist.

Was sollte mein Entwicklungsteam zuerst prüfen?

Prüfe, ob die Landingpage eine erfolgreiche HTTP-Antwort an OAI-AdsBot zurückgibt, ob robots.txt den relevanten Pfad zulässt und ob WAF, CDN, Bot-Abwehrmaßnahmen, JavaScript-Challenges, CAPTCHAs, Authentifizierung oder Geo-Regeln den automatisierten Zugriff blockieren.

Werden App-Store-Links, Deep Links oder Ziele außerhalb des Webs als Landing-Pages unterstützt?

Verwende nach Möglichkeit eine direkt erreichbare Weblandingpage. App-Store-Links, Deeplinks, Dokumente oder Ziele, die eine App, eine Anmeldung, regionsspezifischen Zugriff oder nicht unterstützte Weiterleitungen erfordern, stellen möglicherweise nicht genügend für das Crawling zugängliche Inhalte zur Validierung oder Prüfung bereit.

Wann sollte ich erneut hochladen oder eine Überprüfung anfordern?

Nachdem du den Crawler-Zugriff korrigiert hast, lade betroffene Anzeigen erneut hoch oder reiche sie erneut ein, wenn sich der Status nicht von selbst aktualisiert. Bei per Bulk-Upload hochgeladenen Anzeigen können kleinere Chargen das Auslösen von Ratenlimits oder Bot-Schutzmechanismen reduzieren, während dein Team die Korrektur validiert.