OpenAI

OpenAI 웹 크롤러 허용을 위한 광고주 가이드

마지막 수정: 2 days ago

OpenAI는 왜 웹 크롤러를 사용하나요?

OpenAI는 ChatGPT 광고로 제출된 웹페이지의 안전성을 검증하기 위해 크롤러를 사용합니다. 광고를 제출하면 OpenAI는 해당 랜딩 페이지가 정책을 준수하는지 확인하기 위해 페이지를 방문할 수 있습니다. 또한 OpenAI는 랜딩 페이지의 콘텐츠를 활용하여 광고를 사용자에게 언제 노출하는 것이 가장 적절한지 판단할 수 있습니다.

어떤 OpenAI 크롤러를 허용해야 하나요?

OAI-AdsBot은 반드시 허용해야 합니다. OpenAI는 OAI-AdsBot과 OAI-SearchBot을 모두 허용할 것을 권장합니다.

OpenAI 크롤러가 웹사이트를 크롤링하지 못합니다. 어떻게 해야 하나요?

대부분의 웹사이트는 크롤러가 웹페이지에 성공적으로 액세스하기 전에 여러 단계의 보호 계층을 거치도록 구성되어 있습니다. OpenAI는 엔지니어링 또는 보안 팀과 협력하여 OpenAI 크롤러가 다음 각 계층을 통과할 수 있는지 확인하는 것이 좋습니다.

1. robots.txt

개요: robots.txt 파일은 크롤러가 웹사이트의 특정 영역에 액세스할 수 있는지 여부를 지정합니다. OpenAI 크롤러는 이러한 규칙을 준수합니다. robots.txt에서 액세스가 허용되지 않은 경우 크롤링은 즉시 중단됩니다.

권장 사항: robots.txt 설정을 검토하고 OpenAI 크롤러가 관련 페이지 및 경로에 액세스할 수 있도록 명시적으로 허용되어 있는지 확인하세요.

User-agent: OAI-SearchBot 

Allow: / 

User-agent: OAI-AdsBot 

Allow: /

2. 웹 보호 / 봇 완화

개요: 많은 웹사이트는 DDoS 공격, 스크래핑 및 무단 트래픽을 방어하기 위해 Cloudflare, Akamai 또는 기타 웹 보호 공급자의 서비스를 사용합니다. 이러한 시스템은 정상적인 크롤러를 잘못 차단하여 403 Forbidden 오류를 반환하는 경우가 있습니다. OpenAI 크롤러는 자동화된 트래픽 패턴과 유사하게 보일 수 있으므로 명시적으로 허용 목록에 추가되지 않으면 차단될 수 있습니다.

권장 사항: 웹 보호 또는 방화벽 설정을 검토하고, 가능하면 OpenAI 크롤러의 user-agent를 기준으로 OpenAI 크롤러 트래픽을 허용 목록에 추가하세요. 또한 엔지니어링 또는 인프라 팀은 오탐지를 유발할 수 있는 자동 봇 완화 규칙을 점검해야 합니다.

3. 사람 확인 / 봇 방지 로직

개요: 일부 웹사이트는 방문자가 사람인지 확인하기 위해 추가적인 애플리케이션 수준의 검사를 구현합니다(예: CAPTCHA, JavaScript 챌린지, 행동 분석 또는 세션 검증). OpenAI 크롤러는 자동화된 시스템이므로 앞선 계층을 통과하더라도 이러한 검사로 인해 액세스가 차단될 수 있습니다.

권장 사항: 애플리케이션 내에 구현된 사람 확인 또는 자동화 방지 로직을 검토하고, 적절한 경우 OpenAI 크롤러가 예외 처리되도록 설정하세요. 가능하면 OpenAI 크롤러의 user-agent를 허용 목록에 추가하는 방식을 권장합니다.

고정 IP 범위에 대한 참고 사항

일부 보안 시스템은 크롤러 트래픽을 안정적으로 허용 목록에 추가하기 전에 해당 트래픽이 공개된 고정 IP 범위에서 발생하는지 확인하도록 요구합니다.

크롤러 인프라는 시간이 지남에 따라 변경될 수 있으므로 엔지니어링 팀은 로그에서 확인한 단기적인 IP 정보에만 의존하지 않는 것이 좋습니다. 대신 user-agent 식별, 검증된 봇 프로그램(지원되는 경우), 방화벽 허용 목록, robots.txt 동작 및 공급자 수준의 봇 검증 시스템을 조합하여 트래픽을 검증할 것을 권장합니다.

고정된 IP 범위 목록을 허용해야 하는 경우 다음 정보를 참고하세요.

속도 제한에 대한 참고 사항

대규모 일괄 업로드 또는 크롤러 트래픽의 급격한 증가는 자동 속도 제한 또는 봇 보호 시스템을 유발할 수 있습니다.

속도 제한이 발생하고 있다고 의심되는 경우 엔지니어링 팀에 다음 항목을 검토하도록 요청하세요.

  • HTTP 응답 코드(특히 429 Too Many Requests)

  • 방화벽 또는 CDN 로그

  • 봇 완화 이벤트

  • 요청 제한 규칙

  • 크롤러가 액세스를 시도한 시점의 트래픽 분석 정보

이를 통해 인프라 보호 기능에 의해 요청이 의도적으로 지연되거나 차단되고 있는지 파악할 수 있습니다. 

광고를 더 긴 기간에 걸쳐 더 작은 배치로 나누어 업로드하는 방법도 고려할 수 있습니다.

Cloudflare에 대한 참고 사항

현재 OAI-AdsBot은 Cloudflare에서 공식적으로 검증되었으며 허용 목록에 추가되어 있습니다.

이 문서가 도움이 되었나요?