Porque é que a OpenAI usa rastreadores web?
Usamos rastreadores para validar a segurança das páginas web enviadas como anúncios no ChatGPT. Quando envia um anúncio, a OpenAI pode visitar a página de destino para garantir que cumpre as nossas políticas. Também podemos usar conteúdo da página de destino para determinar quando é mais relevante mostrar o anúncio aos utilizadores.
Que rastreadores da OpenAI deve permitir?
Tem de permitir o OAI-AdsBot. Recomendamos permitir tanto o OAI-AdsBot como o OAI-SearchBot
Os rastreadores da OpenAI não conseguem rastrear o meu website. O que devo fazer?
A maioria dos websites tem várias camadas de proteção antes de um rastreador conseguir aceder com êxito a uma página web. Recomendamos que trabalhe com a sua equipa de engenharia/segurança para validar que os rastreadores da OpenAI conseguem passar por cada uma das seguintes camadas:
1. robots.txt
Visão geral: O ficheiro robots.txt informa os rastreadores se têm permissão para aceder a certas partes do seu website. Os rastreadores da OpenAI respeitam estas regras. Se o acesso for desautorizado no robots.txt, o rastreio será interrompido imediatamente.
Recomendação: Reveja a configuração do seu robots.txt e confirme que os rastreadores da OpenAI têm permissão explícita para aceder às páginas e aos caminhos relevantes.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Proteção web / Mitigação de bots
Visão geral: Muitos websites usam serviços como o Cloudflare, o Akamai ou outros fornecedores de proteção web para se defenderem de ataques DDoS, scraping e tráfego não autorizado. Estes sistemas podem bloquear por engano rastreadores legítimos, devolvendo frequentemente erros 403 Forbidden. Como os rastreadores da OpenAI podem assemelhar-se a padrões de tráfego automatizado, podem ser recusados, a menos que sejam especificamente incluídos numa lista de permissões.
Recomendação: Reveja a configuração da sua proteção web ou firewall e coloque em lista de permissões o tráfego dos rastreadores da OpenAI sempre que possível, idealmente com base nos user agents dos nossos rastreadores. A sua equipa de engenharia ou infraestrutura também deverá inspecionar quaisquer regras automáticas de mitigação de bots que possam estar a gerar falsos positivos.
3. Verificação humana / Lógica anti-bot
Visão geral: Alguns websites implementam verificações adicionais ao nível da aplicação para confirmar que um visitante é humano (por exemplo: CAPTCHAs, desafios JavaScript, análise comportamental ou validação de sessão). Como os rastreadores da OpenAI são sistemas automatizados, estas verificações podem bloquear o acesso, mesmo que o rastreador passe com êxito pelas camadas anteriores.
Recomendação: Reveja qualquer lógica de verificação humana ou anti-automação implementada na sua aplicação e garanta que os rastreadores da OpenAI estão isentos quando apropriado, idealmente colocando em lista de permissões os user agents dos nossos rastreadores.
Nota sobre intervalos de IP estáveis
Alguns sistemas de segurança exigem que o tráfego dos rastreadores tenha origem em intervalos de IP estáveis e documentados publicamente antes de esse tráfego poder ser colocado de forma fiável numa lista de permissões.
Como a infraestrutura dos rastreadores pode evoluir ao longo do tempo, a sua equipa de engenharia deve evitar depender apenas de observações de IP de curto prazo obtidas nos registos. Em vez disso, recomendamos validar o tráfego através de uma combinação de: identificação do user-agent, programas de bots verificados (quando suportado), listas de permissões na firewall, comportamento do robots.txt e sistemas de verificação de bots ao nível do fornecedor.
Se tiver mesmo de permitir uma lista estável de intervalos de IP, consulte:
Nota sobre limite de taxa
Carregamentos em lote de grande dimensão ou picos súbitos no tráfego dos rastreadores podem, por vezes, acionar sistemas automáticos de limite de taxa ou de proteção contra bots.
Se suspeitar que está a ocorrer limitação de taxa, peça à sua equipa de engenharia para rever:
Códigos de resposta HTTP (especialmente 429 Too Many Requests)
Registos da firewall ou da CDN
Eventos de mitigação de bots
Regras de limitação de pedidos
Análises de tráfego na altura em que o rastreador tentou aceder
Isto pode ajudar a identificar se os pedidos estão a ser intencionalmente abrandados ou bloqueados por proteções da infraestrutura.
Também pode considerar carregar anúncios ao longo de mais tempo, em lotes mais pequenos.
Nota sobre o Cloudflare
O OAI-AdsBot está agora oficialmente verificado e incluído na lista de permissões do Cloudflare.
