Hvorfor bruker OpenAI nettcrawlere?
Vi bruker crawlere for å kontrollere sikkerheten på nettsider som sendes inn som annonser på ChatGPT. Når du sender inn en annonse, kan OpenAI besøke landingssiden for å sikre at den følger retningslinjene våre. Vi kan også bruke innhold fra landingssiden for å avgjøre når det er mest relevant å vise annonsen til brukere.
Hvilke OpenAI-crawlere bør du tillate?
Du må tillate OAI-AdsBot. Vi anbefaler å tillate både OAI-AdsBot og OAI-SearchBot
OpenAI-crawlere klarer ikke å crawle nettstedet mitt. Hva bør jeg gjøre?
De fleste nettsteder har flere beskyttelseslag før en crawler kan få tilgang til en nettside. Vi anbefaler at du samarbeider med utviklings-/sikkerhetsteamet ditt for å kontrollere at OpenAI-crawlere kan komme gjennom hvert av følgende lag:
1. robots.txt
Oversikt: Filen robots.txt forteller crawlere om de har tillatelse til å få tilgang til bestemte deler av nettstedet ditt. OpenAI-crawlere respekterer disse reglene. Hvis tilgang ikke er tillatt i robots.txt, stopper crawlingen umiddelbart.
Anbefaling: Gå gjennom robots.txt-konfigurasjonen din og bekreft at OpenAI-crawlere eksplisitt har tilgang til de relevante sidene og stiene.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Nettbeskyttelse / botbegrensning
Oversikt: Mange nettsteder bruker tjenester som Cloudflare, Akamai eller andre leverandører av nettbeskyttelse for å forsvare seg mot DDoS-angrep, scraping og uautorisert trafikk. Disse systemene kan ved en feil blokkere legitime crawlere, ofte med 403 Forbidden-feil som resultat. Fordi OpenAI-crawlere kan ligne automatiserte trafikkmønstre, kan de bli nektet med mindre de spesifikt er tillatt.
Anbefaling: Gå gjennom konfigurasjonen for nettbeskyttelse eller brannmur, og tillat OpenAI-crawlertrafikk der det er mulig, helst basert på brukeragentene til crawlerne våre. Utviklings- eller infrastrukturteamet ditt bør også undersøke eventuelle automatiserte regler for botbegrensning som kan utløse falske positiver.
3. Menneskelig verifisering / anti-bot-logikk
Oversikt: Noen nettsteder implementerer ekstra kontroller på applikasjonsnivå for å bekrefte at en besøkende er et menneske (for eksempel: CAPTCHA-er, JavaScript-utfordringer, atferdsanalyse eller øktvalidering). Siden OpenAI-crawlere er automatiserte systemer, kan disse kontrollene blokkere tilgang selv om crawleren har kommet gjennom tidligere lag.
Anbefaling: Gå gjennom eventuell menneskeverifisering eller anti-automatiseringslogikk som er implementert i applikasjonen din, og sørg for at OpenAI-crawlere er unntatt der det er passende, helst ved å tillate brukeragentene til crawlerne våre.
En merknad om stabile IP-områder
Noen sikkerhetssystemer krever at crawlertrafikk kommer fra stabile, offentlig dokumenterte IP-områder før trafikk kan tillates pålitelig.
Fordi crawlerinfrastrukturen kan utvikle seg over tid, bør utviklingsteamet ditt unngå å basere seg utelukkende på kortsiktige IP-observasjoner fra logger. I stedet anbefaler vi å validere trafikk gjennom en kombinasjon av: identifisering av brukeragent, verifiserte botprogrammer (der dette støttes), tillatelseslister i brannmur, robots.txt-atferd og leverandørnivåets systemer for botverifisering.
Hvis du må tillate en stabil liste over IP-områder, se:
En merknad om bruksgrense
Store batchopplastinger eller plutselige topper i crawlertrafikk kan noen ganger utløse automatisert bruksgrense eller botbeskyttelsessystemer.
Hvis du mistenker at bruksgrense håndheves, be utviklingsteamet ditt om å gjennomgå:
HTTP-responskoder (særlig 429 Too Many Requests)
Brannmur- eller CDN-logger
Hendelser for botbegrensning
Regler for forespørselsbegrensning
Trafikkanalyse rundt tidspunktet da crawleren forsøkte å få tilgang
Dette kan bidra til å identifisere om forespørsler med vilje blir forsinket eller blokkert av infrastrukturbeskyttelse.
Du kan også vurdere å laste opp annonser over lengre tid i mindre batcher.
En merknad om Cloudflare
OAI-AdsBot er nå offisielt verifisert og tillatt av Cloudflare.
