Orientações para anunciantes sobre permitir rastreadores Web da OpenAI

Saiba como tornar as páginas de destino dos seus anúncios acessíveis à OpenAI e resolver problemas de acesso comuns.

Porque é que a OpenAI utiliza rastreadores da Web?

Utilizamos rastreadores para validar a segurança das páginas Web submetidas como anúncios no ChatGPT. Quando submete um anúncio, a OpenAI pode visitar a página de destino para garantir que cumpre as nossas políticas. Também podemos utilizar conteúdo da página de destino para determinar quando é mais relevante mostrar o anúncio aos utilizadores.

Que rastreadores da OpenAI deve permitir?

Tem de permitir o OAI-AdsBot. Recomendamos que permita tanto o OAI-AdsBot como o OAI-SearchBot.

Os rastreadores da OpenAI não conseguem rastrear o meu site. O que devo fazer?

A maioria dos sites tem várias camadas de proteção antes de um rastreador conseguir aceder a uma página Web. Trabalhe com a sua equipa de engenharia ou segurança para validar que os rastreadores da OpenAI conseguem passar por cada uma das camadas seguintes.

1. robots.txt

O ficheiro robots.txt indica aos rastreadores se estão autorizados a aceder a determinadas partes do seu site. Os rastreadores da OpenAI respeitam estas regras. Se o acesso for proibido em robots.txt, o rastreamento será interrompido de imediato.

Reveja a configuração do seu robots.txt e confirme que os rastreadores da OpenAI têm permissão explícita para aceder às páginas e aos caminhos relevantes. Por exemplo: User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Proteção Web e mitigação de bots

Muitos sites utilizam serviços como a Cloudflare, a Akamai ou outros fornecedores de proteção Web para se defenderem contra ataques DDoS, scraping e tráfego não autorizado. Estes sistemas podem bloquear rastreadores legítimos por engano, devolvendo frequentemente erros 403 Forbidden. Como os rastreadores da OpenAI podem assemelhar-se a padrões de tráfego automatizado, o acesso pode ser-lhes negado se não forem especificamente incluídos na lista de permissões.

Reveja a configuração da sua proteção Web ou firewall e, sempre que possível, inclua o tráfego dos rastreadores da OpenAI na lista de permissões, idealmente com base nos nossos user agents de rastreadores. A sua equipa de engenharia ou infraestrutura também deve inspecionar quaisquer regras automatizadas de mitigação de bots que possam estar a gerar falsos positivos.

3. Verificação humana e lógica anti-bot

Alguns sites implementam verificações adicionais ao nível da aplicação para confirmar que um visitante é humano, como CAPTCHA, desafios de JavaScript, análise comportamental ou validação de sessão. Como os rastreadores da OpenAI são sistemas automatizados, estas verificações podem bloquear o acesso mesmo que o rastreador passe com êxito pelas camadas anteriores.

Reveja qualquer lógica de verificação humana ou anti-automatização implementada na sua aplicação e garanta que os rastreadores da OpenAI são excluídos quando adequado, idealmente incluindo os nossos user agents de rastreadores na lista de permissões.

Nota sobre intervalos de IP estáveis

Alguns sistemas de segurança exigem que o tráfego dos rastreadores tenha origem em intervalos de IP estáveis e documentados publicamente antes de poder ser incluído de forma fiável numa lista de permissões. Como a infraestrutura de rastreamento pode evoluir ao longo do tempo, a sua equipa de engenharia deve evitar depender apenas de observações de IP de curto prazo a partir de registos. Em vez disso, valide o tráfego através de uma combinação de identificação por user-agent, programas de bots verificados quando suportados, listas de permissões da firewall, comportamento de robots.txt e sistemas de verificação de bots ao nível do fornecedor.

Se tiver de permitir uma lista estável de intervalos de IP, consulte https://openai.com/searchbot.json e https://openai.com/adsbot.json.

Nota sobre limites de taxa

Carregamentos em massa de grande dimensão ou picos súbitos no tráfego dos rastreadores podem, por vezes, acionar sistemas automatizados de limite de taxa ou de proteção contra bots.

Se suspeitar que está a ocorrer limitação por limite de taxa, peça à sua equipa de engenharia que reveja os códigos de resposta HTTP, especialmente 429 Too Many Requests, os registos da firewall ou da CDN, eventos de mitigação de bots, regras de limitação de pedidos e análises de tráfego por volta da altura em que o rastreador tentou aceder. Isto pode ajudar a identificar se os pedidos estão a ser intencionalmente abrandados ou bloqueados por proteções de infraestrutura.

Também pode considerar carregar anúncios ao longo de um período mais alargado, em lotes mais pequenos.

Nota sobre a Cloudflare

O OAI-AdsBot é oficialmente verificado e incluído na lista de permissões pela Cloudflare.

FAQ sobre rastreadores e páginas de destino

Que rastreador é necessário para a revisão de anúncios?

O OAI-AdsBot é necessário para a validação e revisão de páginas de destino de Anúncios do ChatGPT. O OAI-SearchBot é recomendado porque pode ajudar a OpenAI a compreender conteúdos Web públicos, mas o OAI-AdsBot é o rastreador que os anunciantes devem priorizar para preparar os anúncios.

O suporte pode contornar manualmente a validação do rastreador?

Não dependa de um contorno manual. Torne a página de destino rastreável pelo OAI-AdsBot corrigindo bloqueios de robots.txt, WAF, CDN, mitigação de bots, autenticação e limite de taxa. Os anúncios poderão ter de ser carregados novamente ou resubmetidos para revisão depois de a página de destino ficar acessível.

O que deve a minha equipa de engenharia verificar primeiro?

Verifique se a página de destino devolve uma resposta HTTP bem-sucedida ao OAI-AdsBot, se o robots.txt permite o caminho relevante e se WAF, CDN, mitigação de bots, desafios de JavaScript, CAPTCHA, autenticação ou regras geográficas bloqueiam o acesso automatizado.

As ligações para lojas de aplicações, os deep links ou os destinos que não são Web são suportados como páginas de destino?

Utilize uma página de destino Web diretamente acessível sempre que possível. Ligações para lojas de aplicações, deep links, documentos ou destinos que exijam uma aplicação, início de sessão, acesso específico por região ou redirecionamentos não suportados podem não disponibilizar conteúdo rastreável suficiente para validação ou revisão.

Quando devo voltar a carregar ou solicitar nova revisão?

Depois de corrigir o acesso do rastreador, volte a carregar ou ressubmeta os anúncios afetados se o estado não for atualizado automaticamente. Para anúncios carregados em massa, lotes mais pequenos podem reduzir acionamentos de limite de taxa ou de proteção contra bots enquanto a sua equipa valida a correção.