¿Por qué OpenAI usa rastreadores web?

Usamos rastreadores para validar la seguridad de las páginas web enviadas como anuncios en ChatGPT. Cuando envíes un anuncio, OpenAI podría visitar la página de destino para asegurarse de que cumpla con nuestras políticas. También podríamos usar contenido de la página de destino para determinar cuándo es más relevante mostrarles el anuncio a los usuarios.

¿Qué rastreadores de OpenAI deberías permitir?

Debes permitir OAI-AdsBot. Recomendamos permitir tanto OAI-AdsBot como OAI-SearchBot.

Los rastreadores de OpenAI no pueden rastrear mi sitio web. ¿Qué debo hacer?

La mayoría de los sitios web tienen varias capas de protección antes de que un rastreador pueda acceder correctamente a una página web. Recomendamos trabajar con tu equipo de ingeniería/seguridad para validar que los rastreadores de OpenAI puedan atravesar cada una de las siguientes capas:

1. robots.txt

Descripción general: El archivo robots.txt les indica a los rastreadores si tienen permitido acceder a ciertas partes de tu sitio web. Los rastreadores de OpenAI respetan estas reglas. Si no se permite el acceso en robots.txt, el rastreo se detendrá inmediatamente.

Recomendación: Revisa la configuración de robots.txt y confirma que los rastreadores de OpenAI tengan permiso explícito para acceder a las páginas y rutas relevantes.

User-agent: OAI-SearchBot

Permitir: /

User-agent: OAI-AdsBot

Permitir: /

2. Protección web/mitigación de bots

Descripción general: Muchos sitios web usan servicios como Cloudflare, Akamai u otros proveedores de protección web para defenderse de ataques DDoS, extracción de datos y tráfico no autorizado. Estos sistemas pueden bloquear por error rastreadores legítimos, a menudo devolviendo errores 403 Forbidden. Como los rastreadores de OpenAI pueden asemejarse a patrones de tráfico automatizado, es posible que se les deniegue el acceso a menos que se incluyan específicamente en una lista de permitidos.

Recomendación: Revisa la configuración de protección web o del firewall e incluye en la lista de permitidos el tráfico de rastreadores de OpenAI cuando sea posible, idealmente basado en nuestros agentes de usuario de rastreadores. Tu equipo de ingeniería o infraestructura también debería revisar cualquier regla automatizada de mitigación de bots que pudiera estar generando falsos positivos.

3. Verificación humana/lógica antibot

Descripción general: Algunos sitios web implementan comprobaciones adicionales a nivel de aplicación para verificar que un visitante sea humano (p. ej.: CAPTCHA, desafíos de JavaScript, análisis de comportamiento o validación de sesión). Como los rastreadores de OpenAI son sistemas automatizados, estas comprobaciones pueden bloquear el acceso incluso si el rastreador supera correctamente las capas anteriores.

Recomendación: Revisa cualquier lógica de verificación humana o antiautomatización implementada en tu aplicación y asegúrate de que los rastreadores de OpenAI estén exentos cuando corresponda, idealmente incluyendo nuestros agentes de usuario de rastreadores en la lista de permitidos.

Nota sobre rangos de IP estables

Algunos sistemas de seguridad requieren que el tráfico de rastreadores provenga de rangos de IP estables y documentados públicamente antes de que el tráfico pueda incluirse de forma confiable en una lista de permitidos.

Como la infraestructura de rastreadores puede evolucionar con el tiempo, tu equipo de ingeniería debe evitar depender únicamente de observaciones de IP a corto plazo provenientes de los registros. En su lugar, recomendamos validar el tráfico mediante una combinación de identificación de agente de usuario, programas de bots verificados (cuando sean compatibles), listas de permitidos del firewall, comportamiento de robots.txt y sistemas de verificación de bots a nivel de proveedor.

Si debes permitir una lista estable de rangos de IP, consulta:

Nota sobre la limitación de tasa

Las cargas por lotes grandes o los aumentos repentinos en el tráfico de rastreadores a veces pueden activar sistemas automáticos de limitación de tasa o de protección contra bots.

Si sospechas que se está aplicando un límite de tasa, pídele a tu equipo de ingeniería que revise:

Códigos de respuesta HTTP (especialmente 429 Too Many Requests)
Registros de firewall o CDN
Eventos de mitigación de bots
Reglas de limitación de solicitudes
Análisis de tráfico en torno al momento en que el rastreador intentó acceder

Esto puede ayudar a identificar si las solicitudes se están ralentizando o bloqueando intencionalmente debido a protecciones de infraestructura.

También puedes considerar subir anuncios durante un período más prolongado en lotes más pequeños.

Una nota sobre Cloudflare

OAI-AdsBot ahora está verificado oficialmente y permitido por Cloudflare.

Orientación para anunciantes sobre cómo permitir los rastreadores web de OpenAI