OpenAI

Linee guida per gli inserzionisti sull'autorizzazione dei crawler web di OpenAI

Aggiornato: 9 hours ago

Perché OpenAI utilizza i web crawler?

Utilizziamo crawler per verificare la sicurezza delle pagine web inviate come annunci su ChatGPT. Quando invii un annuncio, OpenAI potrebbe visitare la pagina di destinazione per assicurarsi che sia conforme alle nostre norme. Potremmo inoltre utilizzare i contenuti della pagina di destinazione per stabilire quando è più pertinente mostrare l’annuncio agli utenti.

Quali crawler di OpenAI dovresti consentire?

Devi consentire l’accesso a OAI-AdsBot. Consigliamo di consentire sia OAI-AdsBot che OAI-SearchBot

I bot di OpenAI non riescono a eseguire la scansione del mio sito web. Cosa devo fare?

La maggior parte dei siti web dispone di più livelli di protezione prima che un crawler possa accedere correttamente a una pagina web. Consigliamo di collaborare con il team di ingegneria/sicurezza per verificare che i crawler di OpenAI possano attraversare ciascuno dei seguenti livelli:

1. robots.txt

Panoramica: il file robots.txt indica ai crawler se sono autorizzati ad accedere a determinate parti del tuo sito web. I crawler di OpenAI rispettano queste regole. Se l'accesso non è consentito in robots.txt, la scansione si interromperà immediatamente.

Raccomandazione: verifica la configurazione di robots.txt e controlla che i crawler di OpenAI siano esplicitamente autorizzati ad accedere alle pagine e ai percorsi pertinenti.

User-agent: OAI-SearchBot 

Consenti: / 

User-agent: OAI-AdsBot 

Consenti: /

2. Protezione web / Mitigazione dei bot

Panoramica: molti siti web utilizzano servizi come Cloudflare, Akamai o altri fornitori di protezione web per difendersi da attacchi DDoS, scraping e traffico non autorizzato. Questi sistemi possono bloccare erroneamente crawler legittimi, restituendo spesso errori 403 Forbidden. Poiché i crawler di OpenAI possono presentare schemi di traffico simili a quelli automatizzati, potrebbero essere bloccati a meno che non siano esplicitamente inseriti nell'elenco dei consentiti.

Consiglio: verifica la configurazione della protezione web o del firewall e, ove possibile, inserisci nell'elenco dei consentiti il traffico dei crawler di OpenAI, idealmente in base agli user-agent dei nostri crawler. Inoltre il tuo team di ingegneria o di infrastruttura dovrebbe esaminare eventuali regole automatizzate di mitigazione dei bot che potrebbero generare falsi positivi.

3. Verifica umana / Logica anti-bot

Panoramica: alcuni siti web implementano controlli aggiuntivi a livello applicativo per verificare che un visitatore sia umano (ad esempio: CAPTCHA, sfide JavaScript, analisi comportamentale o convalida della sessione). Poiché i crawler di OpenAI sono sistemi automatizzati, questi controlli possono bloccare l'accesso anche se il crawler supera correttamente i livelli precedenti.

Consiglio: verifica eventuali logiche di verifica umana o anti-automazione implementate nella tua applicazione e assicurati che i crawler di OpenAI siano esentati ove opportuno, idealmente inserendoli nell'elenco dei consentiti in base agli user-agent dei nostri crawler.

Nota sugli intervalli di indirizzi IP stabili

Alcuni sistemi di sicurezza richiedono che il traffico dei crawler provenga da intervalli di indirizzi IP stabili e documentati pubblicamente prima che tale traffico possa essere inserito in modo affidabile nell'elenco dei consentiti.

Poiché l’infrastruttura dei crawler può evolvere nel tempo, il tuo team di ingegneria dovrebbe evitare di basarsi esclusivamente su osservazioni a breve termine degli indirizzi IP nei log. Si raccomanda invece di validare il traffico utilizzando una combinazione di: identificazione dello user-agent, programmi bot verificati (quando supportati), allowlist del firewall, comportamento del file robots.txt e sistemi di verifica dei bot a livello di provider.

Per consentire un elenco stabile di intervalli di indirizzi IP, consulta:

Nota sulla limitazione del traffico

Caricamenti in blocco di grandi dimensioni o picchi improvvisi nel traffico dei crawler possono talvolta attivare sistemi automatici di limitazione del traffico o di protezione dai bot.

Se sospetti che si stia verificando un limitazione del traffico, chiedi al team di ingegneria di verificare:

  • Codici di risposta HTTP (in particolare 429 Troppe richieste)

  • Log del firewall o della CDN

  • Eventi di mitigazione dei bot

  • Regole di limitazione delle richieste

  • Analisi del traffico nel periodo in cui il crawler ha tentato di accedere

Questo può aiutare a determinare se le richieste vengono intenzionalmente rallentate o bloccate dai meccanismi di protezione dell’infrastruttura. 

Potresti anche distribuire il caricamento degli annunci nel tempo, utilizzando batch più piccoli.

Una nota su Cloudflare

OAI-AdsBot è ora ufficialmente verificato e inserito nell'elenco dei consentiti di Cloudflare.

Questo articolo è stato utile?