OpenAI

Leitfaden für Werbetreibende zum Zulassen von OpenAI-Webcrawlern

Aktualisiert: 8 hours ago

Warum setzt OpenAI Webcrawler ein?

Wir verwenden Crawler, um die Sicherheit von Webseiten zu überprüfen, die als Anzeigen auf ChatGPT eingereicht werden. Wenn du eine Werbeanzeige einreichst, kann OpenAI die Landingpage aufrufen, um sicherzustellen, dass sie unseren Richtlinien entspricht. Wir verwenden möglicherweise auch Inhalte der Landingpage, um zu bestimmen, wann es am relevantesten ist, Nutzer:innen die Anzeige zu präsentieren.

Welche OpenAI-Crawler solltest du zulassen?

Du musst OAI-AdsBot zulassen. Wir empfehlen, sowohl OAI-AdsBot als auch OAI-SearchBot zuzulassen.

OpenAI-Crawler können meine Website nicht crawlen. Was kann ich jetzt tun?

Die meisten Websites verfügen über mehrere Schutzebenen, bevor ein Crawler erfolgreich auf eine Webseite zugreifen kann. Wir empfehlen, mit deinem Engineering-/Sicherheitsteam zusammenzuarbeiten, um zu überprüfen, ob OpenAI-Crawler jede der folgenden Ebenen passieren können:

1. robots.txt

Übersicht: Die robots.txt-Datei teilt Crawlern mit, ob sie auf bestimmte Bereiche deiner Website zugreifen dürfen. OpenAI-Crawler beachten diese Regeln. Wenn der Zugriff in der robots.txt untersagt ist, wird Crawling sofort beendet.

Empfehlung: Überprüfe deine robots.txt-Konfiguration und bestätige, dass OpenAI-Crawler ausdrücklich auf die relevanten Seiten und Pfade zugreifen dürfen.

User-Agent: OAI-SearchBot 

Zulassen: / 

User-Agent: OAI-AdsBot 

Zulassen: /

2. Webschutz / Bot-Abwehr

Überblick: Viele Websites nutzen Dienste wie Cloudflare, Akamai oder andere Anbieter von Webschutzlösungen, um sich gegen DDoS-Angriffe, Scraping und nicht autorisierten Datenverkehr zu schützen. Diese Systeme können legitime Crawler fälschlicherweise blockieren, wobei häufig 403-Verboten-Fehler zurückgegeben werden. Da OpenAI-Crawler Mustern automatisierten Datenverkehrs ähneln können, können sie blockiert werden, sofern sie nicht ausdrücklich auf die Zulassungsliste gesetzt wurden.

Empfehlung: Überprüfe deine Webschutz- oder Firewall-Konfiguration und setze den Datenverkehr von OpenAI-Crawlern nach Möglichkeit auf die Zulassungsliste, idealerweise anhand unserer Crawler-User-Agents. Dein Engineering- oder Infrastrukturteam sollte außerdem alle automatisierten Regeln zur Bot-Abwehr überprüfen, die Fehlalarme auslösen könnten.

3. Menschliche Verifizierung / Anti-Bot-Logik

Überblick: Einige Websites implementieren zusätzliche Prüfungen auf Anwendungsebene, um zu überprüfen, ob ein:e Besucher:in ein Mensch ist (zum Beispiel, CAPTCHAs, JavaScript-Herausforderungen, Verhaltensanalyse oder Sitzungsvalidierung). Da OpenAI-Crawler automatisierte Systeme sind, können diese Prüfungen den Zugriff blockieren, selbst wenn der Crawler vorgelagerte Ebenen erfolgreich passiert.

Empfehlung: Überprüfe jegliche in deiner Anwendung implementierte Logik zur Verifizierung durch Menschen oder zur Abwehr von Automatisierung und stelle sicher, dass OpenAI-Crawler gegebenenfalls ausgenommen sind, idealerweise indem du unsere Crawler-User-Agents auf die Zulassungsliste setzt.

Ein Hinweis zu stabilen IP-Adressbereichen

Einige Sicherheitssysteme erfordern, dass Crawler-Traffic aus stabilen, öffentlich dokumentierten IP-Adressbereichen stammt, bevor der Datenverkehr zuverlässig auf eine Zulassungsliste gesetzt werden kann.

Da sich die Crawler-Infrastruktur im Laufe der Zeit weiterentwickeln kann, solltest du vermeiden, dich ausschließlich auf kurzfristige IP-Beobachtungen aus Protokollen zu verlassen. Stattdessen empfehlen wir dir, den Datenverkehr durch eine Kombination aus User-Agent-Identifikation, verifizierten Bot-Programmen (sofern unterstützt), Firewall-Zulassungslisten, robots.txt-Verhalten und Bot-Verifizierungssystemen auf Anbieterebene zu validieren.

Wenn du eine stabile Liste von IP-Adressbereichen zulassen musst, ziehe bitte Folgendes heran:

Ein Hinweis zur Ratenbegrenzung

Große Batch-Uploads oder plötzliche Spitzen im Crawler-Verkehr können manchmal automatisierte Drosselungsmechanismen oder Bot-Schutzsysteme auslösen.

Wenn du vermutest, dass eine Ratenbegrenzung stattfindet, bitte dein Engineering-Team, Folgendes zu überprüfen:

  • HTTP-Statuscodes (insbesondere 429 Zu viele Anfragen)

  • Firewall- oder CDN-Protokolle

  • Ereignisse zur Bot-Abwehr

  • Regeln zur Anfragedrosselung

  • Verkehrsanalysen rund um den Zeitpunkt des Zugriffsversuchs durch den Crawler

Dies kann dabei helfen, zu erkennen, ob Anfragen durch Schutzmechanismen der Infrastruktur gezielt verlangsamt oder blockiert werden. 

Du kannst auch erwägen, Anzeigen über einen längeren Zeitraum hinweg in kleineren Batches hochzuladen.

Ein Hinweis zu Cloudflare

OAI-AdsBot ist jetzt offiziell von Cloudflare verifiziert und auf der Zulassungsliste.

War dieser Artikel hilfreich?