Conseils aux annonceurs pour autoriser les robots d’exploration Web d’OpenAI

Découvrez comment rendre vos pages de destination publicitaire accessibles à OpenAI et résoudre les problèmes d’accès courants.

Pourquoi OpenAI utilise-t-elle des robots d’exploration?

Nous utilisons des robots d’exploration pour vérifier la sécurité des pages Web soumises comme publicités dans ChatGPT. Lorsque vous soumettez une publicité, OpenAI peut visiter la page de destination pour s’assurer qu’elle respecte nos politiques. Nous pouvons aussi utiliser le contenu de la page de destination pour déterminer à quel moment il est le plus pertinent d’afficher la publicité aux utilisateurs.

Quels robots d’exploration d’OpenAI devriez-vous autoriser?

Vous devez autoriser OAI-AdsBot. Nous recommandons d’autoriser OAI-AdsBot et OAI-SearchBot.

Les robots d’exploration d’OpenAI n’arrivent pas à explorer mon site Web. Que dois-je faire?

La plupart des sites Web comportent plusieurs couches de protection qu’un robot d’exploration doit franchir pour accéder correctement à une page Web. Collaborez avec votre équipe d’ingénierie ou de sécurité pour vérifier que les robots d’exploration d’OpenAI peuvent franchir chacune des couches suivantes.

1. robots.txt

Le fichier robots.txt indique aux robots d’exploration s’ils sont autorisés à accéder à certaines parties de votre site Web. Les robots d’exploration d’OpenAI respectent ces règles. Si l’accès est interdit dans robots.txt, l’exploration s’arrête immédiatement.

Vérifiez votre configuration robots.txt et confirmez que les robots d’exploration d’OpenAI sont explicitement autorisés à accéder aux pages et aux chemins pertinents. Par exemple : User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Protection Web et atténuation des robots

De nombreux sites Web utilisent des services comme Cloudflare, Akamai ou d’autres fournisseurs de protection Web pour se défendre contre les attaques DDoS, le scraping et le trafic non autorisé. Ces systèmes peuvent bloquer par erreur des robots d’exploration légitimes, souvent en renvoyant des erreurs 403 Forbidden. Comme les robots d’exploration d’OpenAI peuvent ressembler à des schémas de trafic automatisé, ils peuvent être refusés à moins d’être expressément inscrits sur une liste d’autorisation.

Vérifiez la configuration de votre protection Web ou de votre pare-feu et inscrivez le trafic des robots d’exploration d’OpenAI sur une liste d’autorisation lorsque possible, idéalement en fonction des agents utilisateurs de nos robots. Votre équipe d’ingénierie ou d’infrastructure devrait aussi examiner les règles automatisées d’atténuation des robots qui pourraient générer de faux positifs.

3. Vérification humaine et logique antirobot

Certains sites Web mettent en place des vérifications supplémentaires au niveau de l’application pour confirmer qu’un visiteur est humain, comme des CAPTCHA, des défis JavaScript, l’analyse comportementale ou la validation de session. Étant donné que les robots d’exploration d’OpenAI sont des systèmes automatisés, ces vérifications peuvent bloquer l’accès même si le robot a franchi les couches précédentes.

Vérifiez toute logique de vérification humaine ou anti-automatisation mise en œuvre dans votre application et assurez-vous que les robots d’exploration d’OpenAI en sont exemptés, le cas échéant, idéalement en inscrivant les agents utilisateurs de nos robots sur une liste d’autorisation.

Remarque sur les plages d’adresses IP stables

Certains systèmes de sécurité exigent que le trafic des robots d’exploration provienne de plages d’adresses IP stables et publiquement documentées avant de pouvoir être inscrit de façon fiable sur une liste d’autorisation. Comme l’infrastructure d’exploration peut évoluer au fil du temps, votre équipe d’ingénierie devrait éviter de se fier uniquement aux observations d’adresses IP à court terme tirées des journaux. Validez plutôt le trafic au moyen d’une combinaison d’identification de l’agent utilisateur, de programmes de robots vérifiés lorsque pris en charge, de listes d’autorisation de pare-feu, du comportement de robots.txt et des systèmes de vérification des robots au niveau du fournisseur.

Si vous devez autoriser une liste stable de plages d’adresses IP, consultez https://openai.com/searchbot.json et https://openai.com/adsbot.json.

Remarque sur la limite de débit

Les téléversements en lot volumineux ou les hausses soudaines du trafic des robots d’exploration peuvent parfois déclencher une limite de débit automatisée ou des systèmes de protection contre les robots.

Si vous soupçonnez qu’une limite de débit est appliquée, demandez à votre équipe d’ingénierie d’examiner les codes de réponse HTTP, surtout 429 Too Many Requests, les journaux du pare-feu ou du CDN, les événements d’atténuation des robots, les règles de limitation des requêtes et les analyses du trafic autour du moment où le robot a tenté d’accéder à la page. Cela peut aider à déterminer si les requêtes sont volontairement ralenties ou bloquées par les protections de l’infrastructure.

Vous pouvez aussi envisager de téléverser les publicités sur une plus longue période, en plus petits lots.

Remarque sur Cloudflare

OAI-AdsBot est officiellement vérifié et inscrit sur la liste d’autorisation de Cloudflare.

FAQ sur les robots d’exploration et les pages de destination

Quel robot d’exploration est requis pour l’examen des publicités?

OAI-AdsBot est requis pour la validation et l’examen des pages de destination des publicités ChatGPT. OAI-SearchBot est recommandé, car il peut aider OpenAI à comprendre le contenu public du Web, mais OAI-AdsBot est le robot d’exploration que les annonceurs devraient prioriser afin que leurs publicités soient prêtes.

Le service d’assistance peut-il contourner manuellement la validation des robots d’exploration?

Ne comptez pas sur un contournement manuel. Rendez la page de destination accessible à OAI-AdsBot en corrigeant les blocages liés à robots.txt, au WAF, au CDN, à l’atténuation des robots, à l’authentification et aux limites de débit. Il peut être nécessaire de téléverser de nouveau les publicités ou de les soumettre de nouveau à l’examen une fois la page de destination accessible.

Que mon équipe d’ingénierie devrait-elle vérifier en premier?

Vérifiez si la page de destination renvoie une réponse HTTP réussie à OAI-AdsBot, si robots.txt autorise le chemin pertinent et si le WAF, le CDN, l’atténuation des robots, les défis JavaScript, les CAPTCHA, l’authentification ou les règles géographiques bloquent l’accès automatisé.

Les liens vers les boutiques d’applications, les liens profonds ou les destinations non Web sont-ils pris en charge comme pages de destination?

Utilisez une page de destination Web directement accessible chaque fois que possible. Les liens vers les boutiques d’applications, les liens profonds, les documents ou les destinations qui nécessitent une application, une connexion, un accès propre à une région ou des redirections non prises en charge peuvent ne pas fournir assez de contenu explorable pour la validation ou l’examen.

Quand devrais-je téléverser de nouveau ou demander un nouvel examen?

Après avoir corrigé l’accès des robots d’exploration, téléversez de nouveau ou soumettez de nouveau les publicités touchées si leur statut ne se met pas à jour automatiquement. Pour les publicités téléversées en lot, des lots plus petits peuvent réduire les déclenchements de limites de débit ou de protection contre les robots pendant que votre équipe valide la correction.