Pourquoi OpenAI utilise-t-elle des robots d’exploration Web?
Nous utilisons des robots d’exploration pour valider la sécurité des pages Web soumises comme publicités dans ChatGPT. Lorsque vous soumettez une publicité, OpenAI peut visiter la page de destination pour s’assurer qu’elle respecte nos politiques. Nous pouvons aussi utiliser le contenu de la page de destination pour déterminer quand il est le plus pertinent d’afficher la publicité aux utilisateurs.
Quels robots d’exploration d’OpenAI devez-vous autoriser?
Vous devez autoriser OAI-AdsBot. Nous recommandons d’autoriser à la fois OAI-AdsBot et OAI-SearchBot
Les robots d’exploration d’OpenAI n’arrivent pas à explorer mon site Web. Que dois-je faire?
La plupart des sites Web ont plusieurs couches de protection avant qu’un robot d’exploration puisse accéder à une page Web avec succès. Nous vous recommandons de travailler avec votre équipe d’ingénierie ou de sécurité pour valider que les robots d’exploration d’OpenAI peuvent franchir chacune des couches suivantes :
1. robots.txt
Aperçu : Le fichier robots.txt indique aux robots d’exploration s’ils sont autorisés à accéder à certaines parties de votre site Web. Les robots d’exploration d’OpenAI respectent ces règles. Si l’accès est interdit dans robots.txt, l’exploration s’arrêtera immédiatement.
Recommandation : Vérifiez votre configuration robots.txt et confirmez que les robots d’exploration d’OpenAI sont explicitement autorisés à accéder aux pages et chemins pertinents.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Protection Web / Atténuation des robots
Aperçu : De nombreux sites Web utilisent des services comme Cloudflare, Akamai ou d’autres fournisseurs de protection Web pour se défendre contre les attaques DDoS, l’extraction de données et le trafic non autorisé. Ces systèmes peuvent bloquer par erreur des robots d’exploration légitimes, en renvoyant souvent des erreurs 403 Forbidden. Comme les robots d’exploration d’OpenAI peuvent ressembler à des schémas de trafic automatisé, ils peuvent être refusés sauf s’ils sont explicitement ajoutés à une liste d’autorisation.
Recommandation : Vérifiez votre configuration de protection Web ou de pare-feu et ajoutez le trafic des robots d’exploration d’OpenAI à une liste d’autorisation lorsque possible, idéalement selon nos user-agents de robots. Votre équipe d’ingénierie ou d’infrastructure devrait aussi inspecter toute règle automatisée d’atténuation des robots qui pourrait déclencher des faux positifs.
3. Vérification humaine / Logique anti-robot
Aperçu : Certains sites Web mettent en œuvre des vérifications supplémentaires au niveau de l’application pour confirmer qu’un visiteur est humain (par exemple : CAPTCHAs, défis JavaScript, analyse comportementale ou validation de session). Comme les robots d’exploration d’OpenAI sont des systèmes automatisés, ces vérifications peuvent bloquer l’accès même si le robot franchit avec succès les couches précédentes.
Recommandation : Vérifiez toute logique de vérification humaine ou d’anti-automatisation mise en œuvre dans votre application et assurez-vous que les robots d’exploration d’OpenAI en sont exemptés lorsque c’est approprié, idéalement en ajoutant nos user-agents de robots à une liste d’autorisation.
Remarque sur les plages d’IP stables
Certains systèmes de sécurité exigent que le trafic des robots d’exploration provienne de plages d’IP stables et publiquement documentées avant de pouvoir être ajouté de façon fiable à une liste d’autorisation.
Comme l’infrastructure des robots d’exploration peut évoluer avec le temps, votre équipe d’ingénierie devrait éviter de se fier uniquement aux observations d’IP à court terme dans les journaux. Nous recommandons plutôt de valider le trafic au moyen d’une combinaison de : identification du user-agent, programmes de robots vérifiés (lorsqu’ils sont pris en charge), listes d’autorisation de pare-feu, comportement robots.txt et systèmes de vérification des robots au niveau du fournisseur.
Si vous devez autoriser une liste stable de plages d’IP, veuillez consulter :
Remarque sur la limite de débit
Les téléversements volumineux par lots ou les pointes soudaines de trafic des robots d’exploration peuvent parfois déclencher des systèmes automatisés de limite de débit ou de protection contre les robots.
Si vous soupçonnez qu’une limite de débit est appliquée, demandez à votre équipe d’ingénierie de vérifier :
Les codes de réponse HTTP (surtout 429 Too Many Requests)
Les journaux du pare-feu ou du CDN
Les événements d’atténuation des robots
Les règles de limitation des requêtes
Les analyses de trafic au moment où le robot d’exploration a tenté d’accéder
Cela peut aider à déterminer si les requêtes sont volontairement ralenties ou bloquées par les protections de l’infrastructure.
Vous pouvez aussi envisager de téléverser les publicités sur une plus longue période en plus petits lots.
Remarque sur Cloudflare
OAI-AdsBot est maintenant officiellement vérifié et ajouté à la liste d’autorisation de Cloudflare.
