Защо OpenAI използва уеб обхождащи роботи?
Използваме обхождащи роботи, за да проверяваме безопасността на уеб страници, подадени като реклами в ChatGPT. Когато подадете реклама, OpenAI може да посети целевата страница, за да се увери, че тя отговаря на нашите политики. Също така може да използваме съдържание от целевата страница, за да определим кога е най-подходящо рекламата да се показва на потребителите.
Кои обхождащи роботи на OpenAI трябва да разрешите?
Трябва да разрешите OAI-AdsBot. Препоръчваме да разрешите и OAI-AdsBot, и OAI-SearchBot
Обхождащите роботи на OpenAI не успяват да обходят уебсайта ми. Какво трябва да направя?
Повечето уебсайтове имат няколко слоя защита, преди обхождащ робот да получи успешен достъп до уеб страница. Препоръчваме да работите с вашия екип по инженеринг/сигурност, за да потвърдите, че обхождащите роботи на OpenAI могат да преминат през всеки от следните слоеве:
1. robots.txt
Общ преглед: Файлът robots.txt указва на обхождащите роботи дали им е разрешено да имат достъп до определени части от вашия уебсайт. Обхождащите роботи на OpenAI спазват тези правила. Ако достъпът е забранен в robots.txt, обхождането ще спре незабавно.
Препоръка: Прегледайте конфигурацията на robots.txt и потвърдете, че обхождащите роботи на OpenAI имат изрично разрешение за достъп до съответните страници и пътища.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Уеб защита / ограничаване на ботове
Общ преглед: Много уебсайтове използват услуги като Cloudflare, Akamai или други доставчици на уеб защита, за да се защитават от DDoS атаки, извличане на данни и неоторизиран трафик. Тези системи може погрешно да блокират легитимни обхождащи роботи, като често връщат грешки 403 Forbidden. Тъй като обхождащите роботи на OpenAI може да приличат на автоматизиран трафик, достъпът им може да бъде отказан, освен ако не са изрично в списъка с разрешени.
Препоръка: Прегледайте конфигурацията на вашата уеб защита или защитна стена и, където е възможно, добавете трафика на обхождащите роботи на OpenAI в списъка с разрешени, в идеалния случай въз основа на user agent низовете на нашите роботи. Вашият инженерен или инфраструктурен екип също трябва да провери всички автоматизирани правила за ограничаване на ботове, които може да предизвикват фалшиви положителни резултати.
3. Проверка за човек / антибот логика
Общ преглед: Някои уебсайтове прилагат допълнителни проверки на ниво приложение, за да потвърдят, че посетителят е човек (например: CAPTCHA, JavaScript предизвикателства, поведенчески анализ или валидиране на сесия). Тъй като обхождащите роботи на OpenAI са автоматизирани системи, тези проверки може да блокират достъпа, дори ако роботът е преминал успешно предишните слоеве.
Препоръка: Прегледайте всяка логика за проверка за човек или за предотвратяване на автоматизация, внедрена във вашето приложение, и се уверете, че обхождащите роботи на OpenAI са освободени от нея, когато е подходящо, в идеалния случай чрез добавяне на user agent низовете на нашите роботи в списъка с разрешени.
Бележка относно стабилните IP диапазони
Някои системи за сигурност изискват трафикът от обхождащи роботи да идва от стабилни, публично документирани IP диапазони, преди да може надеждно да бъде добавен в списъка с разрешени.
Тъй като инфраструктурата на обхождащите роботи може да се променя с времето, вашият инженерен екип не трябва да разчита единствено на краткосрочни наблюдения на IP адреси от логове. Вместо това препоръчваме да валидирате трафика чрез комбинация от: идентифициране по user agent, програми за проверени ботове (където се поддържат), списъци с разрешени в защитната стена, поведение по robots.txt и системи на доставчика за проверка на ботове.
Ако трябва да разрешите стабилен списък с IP диапазони, вижте:
Бележка относно ограничаването на скоростта
Големи пакетни качвания или внезапни пикове в трафика от обхождащи роботи понякога може да задействат автоматично ограничаване на скоростта или системи за защита от ботове.
Ако подозирате, че се прилага лимит на заявките, помолете инженерния си екип да прегледа:
HTTP кодове за отговор (особено 429 Too Many Requests)
Логове от защитната стена или CDN
Събития за ограничаване на ботове
Правила за ограничаване на заявките
Анализи на трафика около времето, когато обхождащият робот е направил опит за достъп
Това може да помогне да се установи дали заявките умишлено се забавят или блокират от защитите на инфраструктурата.
Може също да помислите за качване на реклами в по-малки партиди за по-дълъг период от време.
Бележка относно Cloudflare
OAI-AdsBot вече е официално верифициран и добавен в списъка с разрешени от Cloudflare.
