Proč OpenAI používá webové crawlery?
K ověření bezpečnosti webových stránek odeslaných jako reklamy v ChatGPT používáme crawlery. Když odešlete reklamu, může OpenAI navštívit cílovou stránku, aby ověřila soulad s našimi zásadami. Obsah z cílové stránky můžeme také použít k určení, kdy je pro uživatele nejrelevantnější reklamu zobrazit.
Které crawlery OpenAI byste měli povolit?
Musíte povolit OAI-AdsBot. Doporučujeme povolit jak OAI-AdsBot, tak OAI-SearchBot
Crawlery OpenAI nedokážou procházet můj web. Co mám dělat?
Většina webů má několik vrstev ochrany, než crawler může úspěšně získat přístup k webové stránce. Doporučujeme spolupracovat s vaším technickým/bezpečnostním týmem a ověřit, že crawlery OpenAI mohou projít každou z následujících vrstev:
1. robots.txt
Přehled: Soubor robots.txt říká crawlerům, zda mají povolen přístup k určitým částem vašeho webu. Crawlery OpenAI tato pravidla respektují. Pokud je přístup v robots.txt zakázán, procházení se okamžitě zastaví.
Doporučení: Zkontrolujte konfiguraci robots.txt a potvrďte, že crawlery OpenAI mají výslovně povolen přístup k příslušným stránkám a cestám.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Ochrana webu / zmírňování botů
Přehled: Mnoho webů používá služby jako Cloudflare, Akamai nebo jiné poskytovatele webové ochrany k obraně proti DDoS útokům, scrapingu a neoprávněnému provozu. Tyto systémy mohou omylem blokovat legitimní crawlery a často vracejí chyby 403 Forbidden. Protože crawlery OpenAI mohou připomínat vzorce automatizovaného provozu, mohou být odmítnuty, pokud nejsou výslovně zařazeny na allowlist.
Doporučení: Zkontrolujte konfiguraci ochrany webu nebo firewallu a kde je to možné, zařaďte provoz crawlerů OpenAI na allowlist, ideálně podle user-agentů našich crawlerů. Váš technický nebo infrastrukturní tým by měl také prověřit všechna automatizovaná pravidla zmírňování botů, která by mohla spouštět falešně pozitivní výsledky.
3. Ověření člověka / antibotová logika
Přehled: Některé weby zavádějí další kontroly na úrovni aplikace, aby ověřily, že návštěvník je člověk (například: CAPTCHA, JavaScriptové výzvy, behaviorální analýza nebo ověření relace). Protože crawlery OpenAI jsou automatizované systémy, mohou tyto kontroly zablokovat přístup, i když crawler úspěšně projde předchozími vrstvami.
Doporučení: Zkontrolujte veškerou logiku ověřování člověka nebo ochrany proti automatizaci implementovanou ve vaší aplikaci a zajistěte, aby z ní byly crawlery OpenAI podle potřeby vyjmuty, ideálně zařazením user-agentů našich crawlerů na allowlist.
Poznámka ke stabilním rozsahům IP
Některé bezpečnostní systémy vyžadují, aby provoz crawlerů pocházel ze stabilních, veřejně zdokumentovaných rozsahů IP, než jej lze spolehlivě zařadit na allowlist.
Protože se infrastruktura crawlerů může v průběhu času vyvíjet, váš technický tým by se neměl spoléhat pouze na krátkodobá pozorování IP adres z logů. Místo toho doporučujeme ověřovat provoz kombinací těchto metod: identifikace user-agentu, programy ověřených botů (kde jsou podporovány), allowlisty firewallu, chování robots.txt a systémy ověřování botů na úrovni poskytovatele.
Pokud musíte povolit stabilní seznam rozsahů IP, použijte prosím:
Poznámka k limitu frekvence požadavků
Velká dávková nahrávání nebo náhlé špičky v provozu crawlerů mohou někdy spustit automatické systémy pro omezení frekvence požadavků nebo ochranu proti botům.
Pokud se domníváte, že dochází k omezení frekvence požadavků, požádejte svůj technický tým, aby zkontroloval:
Kódy odpovědí HTTP (zejména 429 Too Many Requests)
Logy firewallu nebo CDN
Události zmírňování botů
Pravidla omezování požadavků
Analýzu provozu v době, kdy se crawler pokusil o přístup
To může pomoci určit, zda jsou požadavky záměrně zpomalovány nebo blokovány ochranami infrastruktury.
Můžete také zvážit nahrávání reklam po delší dobu v menších dávkách.
Poznámka ke Cloudflare
OAI-AdsBot je nyní oficiálně ověřen a zařazen na allowlist Cloudflare.
