Linee guida per gli inserzionisti sull'autorizzazione dei crawler web di OpenAI

Scopri come rendere le pagine di destinazione dei tuoi annunci accessibili a OpenAI e risolvere i problemi comuni di accesso.

Perché OpenAI utilizza i web crawler?

Utilizziamo crawler per verificare la sicurezza delle pagine web inviate come annunci su ChatGPT. Quando invii un annuncio, OpenAI potrebbe visitare la pagina di destinazione per assicurarsi che sia conforme alle nostre norme. Potremmo inoltre utilizzare i contenuti della pagina di destinazione per stabilire quando è più pertinente mostrare l’annuncio agli utenti.

Quali crawler di OpenAI dovresti consentire?

Devi consentire l’accesso a OAI-AdsBot. Consigliamo di consentire sia OAI-AdsBot che OAI-SearchBot.

I bot di OpenAI non riescono a eseguire la scansione del mio sito web. Cosa devo fare?

La maggior parte dei siti web dispone di più livelli di protezione prima che un crawler possa accedere correttamente a una pagina web. Collabora con il team di ingegneria o sicurezza per verificare che i crawler di OpenAI possano attraversare ciascuno dei seguenti livelli.

1. robots.txt

Il file robots.txt indica ai crawler se sono autorizzati ad accedere a determinate parti del tuo sito web. I crawler di OpenAI rispettano queste regole. Se l'accesso non è consentito in robots.txt, la scansione si interromperà immediatamente.

Verifica la configurazione di robots.txt e controlla che i crawler di OpenAI siano esplicitamente autorizzati ad accedere alle pagine e ai percorsi pertinenti. Ad esempio: User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Protezione web e mitigazione dei bot

Molti siti web utilizzano servizi come Cloudflare, Akamai o altri fornitori di protezione web per difendersi da attacchi DDoS, scraping e traffico non autorizzato. Questi sistemi possono bloccare erroneamente crawler legittimi, restituendo spesso errori 403 Forbidden. Poiché i crawler di OpenAI possono presentare schemi di traffico simili a quelli automatizzati, potrebbero essere bloccati a meno che non siano esplicitamente inseriti nell'elenco dei consentiti.

Verifica la configurazione della protezione web o del firewall e, ove possibile, inserisci nell'elenco dei consentiti il traffico dei crawler di OpenAI, idealmente in base agli user-agent dei nostri crawler. Inoltre il tuo team di ingegneria o di infrastruttura dovrebbe esaminare eventuali regole automatizzate di mitigazione dei bot che potrebbero generare falsi positivi.

3. Verifica umana e logica anti-bot

Alcuni siti web implementano controlli aggiuntivi a livello applicativo per verificare che un visitatore sia umano, come CAPTCHA, sfide JavaScript, analisi comportamentale o convalida della sessione. Poiché i crawler di OpenAI sono sistemi automatizzati, questi controlli possono bloccare l'accesso anche se il crawler supera correttamente i livelli precedenti.

Verifica eventuali logiche di verifica umana o anti-automazione implementate nella tua applicazione e assicurati che i crawler di OpenAI siano esentati ove opportuno, idealmente inserendoli nell'elenco dei consentiti in base agli user-agent dei nostri crawler.

Nota sugli intervalli di indirizzi IP stabili

Alcuni sistemi di sicurezza richiedono che il traffico dei crawler provenga da intervalli di indirizzi IP stabili e documentati pubblicamente prima che tale traffico possa essere inserito in modo affidabile nell'elenco dei consentiti. Poiché l’infrastruttura dei crawler può evolvere nel tempo, il tuo team di ingegneria dovrebbe evitare di basarsi esclusivamente su osservazioni a breve termine degli indirizzi IP nei log. Dovresti invece validare il traffico utilizzando una combinazione di: identificazione dello user-agent, programmi bot verificati (ove supportati), allowlist del firewall, comportamento del file robots.txt e sistemi di verifica dei bot a livello di provider.

Se devi consentire un elenco stabile di intervalli IP, fai riferimento a https://openai.com/searchbot.json e https://openai.com/adsbot.json.

Nota sulla limitazione di richieste

Caricamenti in blocco di grandi dimensioni o picchi improvvisi nel traffico dei crawler possono talvolta attivare sistemi automatici di limitazione del traffico o di protezione dai bot.

Se sospetti che sia in atto un limitazione di richieste, chiedi al team di ingegneria di esaminare i codici di risposta HTTP, in particolare 429 Too Many Requests, i log del firewall o della CDN, gli eventi di mitigazione dei bot, le regole di limitazione delle richieste e le analisi del traffico nel periodo in cui il crawler ha tentato l’accesso. Questo può aiutare a determinare se le richieste vengono intenzionalmente rallentate o bloccate dai meccanismi di protezione dell’infrastruttura.

Potresti anche distribuire il caricamento degli annunci nel tempo, utilizzando batch più piccoli.

Nota su Cloudflare

OAI-AdsBot è ufficialmente verificato e inserito nell'elenco dei consentiti di Cloudflare.

FAQ su crawler e pagina di destinazione

Quale crawler è richiesto per la revisione degli annunci?

OAI-AdsBot è necessario per la convalida e la revisione della pagina di destinazione di ChatGPT Ads. OAI-SearchBot è consigliato perché può aiutare OpenAI a comprendere i contenuti web pubblici, ma OAI-AdsBot è il crawler a cui gli inserzionisti dovrebbero dare priorità per la preparazione agli annunci.

Il bypass manuale della convalida del crawler è supportato?

Non fare affidamento su un bypass manuale. Rendi la pagina di destinazione accessibile alla scansione da parte di OAI-AdsBot correggendo eventuali blocchi nel file robots.txt e nelle configurazioni di WAF, CDN, mitigazione dei bot, autenticazione e limitazione di richieste. Carica nuovamente gli annunci o inviali per la revisione dopo che la pagina di destinazione sarà accessibile.

Cosa deve controllare il mio team di ingegneria come prima cosa?

Verifica se la pagina di destinazione restituisce una risposta HTTP con esito positivo a OAI-AdsBot, se robots.txt consente il percorso pertinente e se l’accesso automatizzato è bloccato da WAF, CDN, mitigazione dei bot, sfide JavaScript, CAPTCHA, autenticazione o regole geografiche.

I link agli app store, i deep link o le destinazioni non web sono supportati come pagine di destinazione?

Utilizza una pagina di destinazione web direttamente accessibile, ove possibile. I link agli app store, i deep link, i documenti o le destinazioni che richiedono un’app, l’accesso specifico per area geografica, il login o reindirizzamenti non supportati potrebbero non fornire contenuti scansionabili sufficienti per la convalida o la revisione.

Quando devo caricare di nuovo o richiedere una revisione?

Dopo aver corretto l'accesso del crawler, ricarica o invia nuovamente gli annunci interessati se lo stato non si aggiorna automaticamente. Per gli annunci caricati in blocco, lotti più piccoli possono ridurre le attivazioni del limite di richieste o della protezione anti-bot mentre il team convalida la correzione.