De ce folosește OpenAI crawlere web?
Folosim crawlere pentru a valida siguranța paginilor web trimise ca reclame pe ChatGPT. Când trimiteți o reclamă, OpenAI poate vizita pagina de destinație pentru a se asigura că respectă politicile noastre. De asemenea, putem folosi conținutul paginii de destinație pentru a stabili când este cel mai relevant să afișăm reclama utilizatorilor.
Ce crawlere OpenAI ar trebui să permiteți?
Trebuie să permiteți OAI-AdsBot. Recomandăm să permiteți atât OAI-AdsBot, cât și OAI-SearchBot
Crawlerele OpenAI nu reușesc să acceseze site-ul meu web. Ce ar trebui să fac?
Majoritatea site-urilor web au mai multe straturi de protecție înainte ca un crawler să poată accesa cu succes o pagină web. Vă recomandăm să colaborați cu echipa dvs. de inginerie/securitate pentru a valida că crawlerele OpenAI pot trece prin fiecare dintre următoarele straturi:
1. robots.txt
Prezentare generală: Fișierul robots.txt le spune crawlerelor dacă au permisiunea de a accesa anumite părți ale site-ului dvs. web. Crawlerele OpenAI respectă aceste reguli. Dacă accesul este interzis în robots.txt, crawlarea se va opri imediat.
Recomandare: Revizuiți configurația robots.txt și confirmați că crawlerelor OpenAI li se permite în mod explicit accesul la paginile și căile relevante.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Protecție web / atenuarea boților
Prezentare generală: Multe site-uri web folosesc servicii precum Cloudflare, Akamai sau alți furnizori de protecție web pentru a se apăra împotriva atacurilor DDoS, scrapingului și traficului neautorizat. Aceste sisteme pot bloca din greșeală crawlere legitime, returnând adesea erori 403 Forbidden. Deoarece crawlerele OpenAI pot semăna cu modele de trafic automatizat, este posibil să fie respinse dacă nu sunt incluse explicit pe lista de permisiuni.
Recomandare: Revizuiți configurația de protecție web sau firewall și adăugați pe lista de permisiuni traficul crawlerelor OpenAI acolo unde este posibil, ideal pe baza user agent-urilor crawlerelor noastre. Echipa dvs. de inginerie sau infrastructură ar trebui, de asemenea, să inspecteze orice reguli automate de atenuare a boților care ar putea declanșa rezultate fals pozitive.
3. Verificare umană / logică anti-bot
Prezentare generală: Unele site-uri web implementează verificări suplimentare la nivel de aplicație pentru a confirma că un vizitator este uman (de exemplu: CAPTCHA, provocări JavaScript, analiză comportamentală sau validarea sesiunii). Deoarece crawlerele OpenAI sunt sisteme automatizate, aceste verificări pot bloca accesul chiar dacă crawlerul trece cu succes de straturile anterioare.
Recomandare: Revizuiți orice logică de verificare umană sau anti-automatizare implementată în aplicația dvs. și asigurați-vă că crawlerele OpenAI sunt exceptate acolo unde este potrivit, ideal prin adăugarea user agent-urilor crawlerelor noastre pe lista de permisiuni.
O notă despre intervalele IP stabile
Unele sisteme de securitate solicită ca traficul crawlerelor să provină din intervale IP stabile, documentate public, înainte ca traficul să poată fi adăugat în mod fiabil pe lista de permisiuni.
Deoarece infrastructura crawlerelor se poate schimba în timp, echipa dvs. de inginerie ar trebui să evite să se bazeze exclusiv pe observații IP pe termen scurt din jurnale. În schimb, recomandăm validarea traficului printr-o combinație de: identificarea user agent-ului, programe de boți verificați (unde sunt acceptate), liste de permisiuni în firewall, comportamentul robots.txt și sisteme de verificare a boților la nivel de furnizor.
Dacă trebuie să permiteți o listă stabilă de intervale IP, consultați:
O notă despre limitarea ratei
Încărcările mari în lot sau creșterile bruște ale traficului crawlerelor pot declanșa uneori sisteme automate de limitare a ratei sau de protecție împotriva boților.
Dacă suspectați că are loc limitarea ratei, solicitați echipei dvs. de inginerie să revizuiască:
Codurile de răspuns HTTP (în special 429 Too Many Requests)
Jurnalele firewall-ului sau CDN-ului
Evenimentele de atenuare a boților
Regulile de limitare a cererilor
Analizele de trafic din jurul momentului în care crawlerul a încercat accesarea
Acest lucru poate ajuta la identificarea faptului dacă cererile sunt încetinite sau blocate intenționat de protecțiile infrastructurii.
De asemenea, puteți lua în considerare încărcarea reclamelor în loturi mai mici, pe o perioadă mai lungă.
O notă despre Cloudflare
OAI-AdsBot este acum verificat oficial și inclus pe lista de permisiuni de Cloudflare.
