Dlaczego OpenAI używa robotów indeksujących?
Używamy robotów indeksujących, aby sprawdzać bezpieczeństwo stron internetowych przesyłanych jako reklamy w ChatGPT. Gdy przesyłasz reklamę, OpenAI może odwiedzić stronę docelową, aby upewnić się, że jest zgodna z naszymi zasadami. Możemy też wykorzystać treści ze strony docelowej, aby określić, kiedy wyświetlenie reklamy użytkownikom jest najbardziej trafne.
Które roboty indeksujące OpenAI należy dopuścić?
Musisz dopuścić OAI-AdsBot. Zalecamy dopuszczenie zarówno OAI-AdsBot, jak i OAI-SearchBot.
Robotom indeksującym OpenAI nie udaje się przeszukać mojej witryny. Co mam zrobić?
Większość witryn ma kilka warstw ochrony, przez które robot indeksujący musi przejść, zanim skutecznie uzyska dostęp do strony. Wspólnie z zespołem inżynieryjnym lub ds. bezpieczeństwa sprawdź, czy roboty indeksujące OpenAI mogą przejść przez każdą z poniższych warstw.
1. robots.txt
Plik robots.txt informuje roboty indeksujące, czy mają dostęp do określonych części Twojej witryny. Roboty indeksujące OpenAI przestrzegają tych reguł. Jeśli dostęp jest zabroniony w robots.txt, indeksowanie zostanie natychmiast przerwane.
Sprawdź konfigurację robots.txt i potwierdź, że roboty indeksujące OpenAI mają wyraźne zezwolenie na dostęp do odpowiednich stron i ścieżek. Na przykład: User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /
2. Ochrona sieci i ograniczanie ruchu botów
Wiele witryn korzysta z usług takich jak Cloudflare, Akamai lub inni dostawcy ochrony sieci, aby bronić się przed atakami DDoS, scrapingiem i nieautoryzowanym ruchem. Takie systemy mogą omyłkowo blokować prawidłowe roboty indeksujące, często zwracając błędy 403 Forbidden. Ponieważ roboty indeksujące OpenAI mogą przypominać wzorce ruchu automatycznego, ich dostęp może zostać odrzucony, jeśli nie zostaną wyraźnie dodane do listy dozwolonych.
Sprawdź konfigurację ochrony sieci lub zapory i, jeśli to możliwe, dodaj ruch robotów indeksujących OpenAI do listy dozwolonych — najlepiej na podstawie identyfikatorów user agent naszych robotów. Twój zespół inżynieryjny lub infrastrukturalny powinien też sprawdzić wszelkie automatyczne reguły ograniczania ruchu botów, które mogą powodować fałszywe alarmy.
3. Weryfikacja człowieka i logika antybotowa
Niektóre witryny stosują dodatkowe kontrole na poziomie aplikacji, aby zweryfikować, czy odwiedzający jest człowiekiem, takie jak CAPTCHA, wyzwania JavaScript, analiza zachowań lub walidacja sesji. Ponieważ roboty indeksujące OpenAI są systemami automatycznymi, te kontrole mogą zablokować dostęp nawet wtedy, gdy robot pomyślnie przejdzie wcześniejsze warstwy.
Sprawdź wszelką logikę weryfikacji człowieka lub przeciwdziałania automatyzacji zaimplementowaną w aplikacji i upewnij się, że roboty indeksujące OpenAI są w razie potrzeby wyłączone z tych kontroli — najlepiej przez dodanie identyfikatorów user agent naszych robotów do listy dozwolonych.
Uwaga dotycząca stabilnych zakresów adresów IP
Niektóre systemy bezpieczeństwa wymagają, aby ruch robotów indeksujących pochodził ze stabilnych, publicznie udokumentowanych zakresów adresów IP, zanim będzie można niezawodnie dodać taki ruch do listy dozwolonych. Ponieważ infrastruktura robotów indeksujących może z czasem się zmieniać, zespół inżynieryjny nie powinien polegać wyłącznie na krótkoterminowych obserwacjach adresów IP w logach. Zamiast tego weryfikuj ruch, łącząc identyfikację user agent, zweryfikowane programy botów tam, gdzie są obsługiwane, listy dozwolone zapory, zachowanie robots.txt oraz systemy weryfikacji botów na poziomie dostawcy.
Jeśli musisz dopuścić stabilną listę zakresów adresów IP, skorzystaj z https://openai.com/searchbot.json i https://openai.com/adsbot.json.
Uwaga dotycząca limitu zapytań
Duże przesyłanie wsadowe lub nagłe skoki ruchu robotów indeksujących mogą czasem uruchamiać automatyczny limit zapytań albo systemy ochrony przed botami.
Jeśli podejrzewasz, że występuje limit zapytań, poproś zespół inżynieryjny o sprawdzenie kodów odpowiedzi HTTP, zwłaszcza 429 Too Many Requests, logów zapory lub CDN, zdarzeń ograniczania ruchu botów, reguł ograniczania tempa żądań oraz analityki ruchu z czasu, gdy robot indeksujący próbował uzyskać dostęp. Może to pomóc ustalić, czy żądania są celowo spowalniane lub blokowane przez zabezpieczenia infrastruktury.
Możesz też rozważyć przesyłanie reklam przez dłuższy czas w mniejszych partiach.
Uwaga dotycząca Cloudflare
OAI-AdsBot jest oficjalnie zweryfikowany i dodany do listy dozwolonych przez Cloudflare.
Najczęstsze pytania dotyczące robotów indeksujących i stron docelowych
Który robot indeksujący jest wymagany do weryfikacji reklam?
OAI-AdsBot jest wymagany do walidacji i weryfikacji stron docelowych reklam ChatGPT Ads. OAI-SearchBot jest zalecany, ponieważ może pomóc OpenAI zrozumieć publiczne treści w internecie, ale OAI-AdsBot to robot indeksujący, któremu reklamodawcy powinni nadać priorytet przy przygotowywaniu reklam.
Czy pomoc techniczna może ręcznie obejść walidację robota indeksującego?
Nie polegaj na ręcznym obejściu. Upewnij się, że strona docelowa jest dostępna do indeksowania przez OAI-AdsBot, naprawiając blokady związane z robots.txt, WAF, CDN, ograniczaniem ruchu botów, uwierzytelnianiem i limitem zapytań. Po udostępnieniu strony docelowej może być konieczne ponowne przesłanie reklam lub ponowne zgłoszenie ich do weryfikacji.
Co mój zespół inżynieryjny powinien sprawdzić w pierwszej kolejności?
Sprawdź, czy strona docelowa zwraca poprawną odpowiedź HTTP dla OAI-AdsBot, czy robots.txt zezwala na odpowiednią ścieżkę oraz czy WAF, CDN, ograniczanie ruchu botów, wyzwania JavaScript, CAPTCHA, uwierzytelnianie lub reguły geograficzne nie blokują dostępu automatycznego.
Czy linki do sklepów z aplikacjami, linki głębokie lub miejsca docelowe poza WWW są obsługiwane jako strony docelowe?
Gdy tylko to możliwe, używaj bezpośrednio dostępnej internetowej strony docelowej. Linki do sklepów z aplikacjami, linki głębokie, dokumenty lub miejsca docelowe wymagające aplikacji, logowania, dostępu zależnego od regionu albo nieobsługiwanych przekierowań mogą nie zapewniać wystarczającej ilości treści dostępnych do indeksowania na potrzeby walidacji lub weryfikacji.
Kiedy należy ponownie przesłać reklamę lub ponownie poprosić o weryfikację?
Po naprawieniu dostępu dla robota indeksującego ponownie prześlij lub zgłoś do weryfikacji reklamy, których dotyczy problem, jeśli ich status nie zaktualizuje się samoczynnie. W przypadku reklam przesłanych zbiorczo mniejsze partie mogą ograniczyć uruchamianie limitu zapytań lub ochrony przed botami, gdy Twój zespół weryfikuje poprawkę.
