Tại sao OpenAI sử dụng trình thu thập dữ liệu web?
Chúng tôi sử dụng trình thu thập dữ liệu để xác minh độ an toàn của các trang web được gửi làm quảng cáo trên ChatGPT. Khi bạn gửi quảng cáo, OpenAI có thể truy cập trang đích để bảo đảm trang đó tuân thủ các chính sách của chúng tôi. Chúng tôi cũng có thể sử dụng nội dung từ trang đích để xác định khi nào nên hiển thị quảng cáo cho người dùng một cách phù hợp nhất.
Bạn nên cho phép những trình thu thập dữ liệu nào của OpenAI?
Bạn phải cho phép OAI-AdsBot. Chúng tôi khuyên bạn nên cho phép cả OAI-AdsBot và OAI-SearchBot
Trình thu thập dữ liệu của OpenAI không thể thu thập dữ liệu trang web của tôi. Tôi nên làm gì?
Hầu hết các trang web đều có nhiều lớp bảo vệ trước khi trình thu thập dữ liệu có thể truy cập thành công một trang web. Chúng tôi khuyên bạn nên làm việc với đội ngũ kỹ thuật/bảo mật để xác minh rằng trình thu thập dữ liệu của OpenAI có thể đi qua từng lớp sau đây:
1. robots.txt
Tổng quan: Tệp robots.txt cho trình thu thập dữ liệu biết liệu chúng có được phép truy cập một số phần nhất định trên trang web của bạn hay không. Trình thu thập dữ liệu của OpenAI tuân thủ các quy tắc này. Nếu quyền truy cập bị từ chối trong robots.txt, quá trình thu thập dữ liệu sẽ dừng lại ngay lập tức.
Khuyến nghị: Hãy xem lại cấu hình robots.txt của bạn và xác nhận rằng trình thu thập dữ liệu của OpenAI được cho phép rõ ràng truy cập các trang và đường dẫn liên quan.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Bảo vệ web / Giảm thiểu bot
Tổng quan: Nhiều trang web sử dụng các dịch vụ như Cloudflare, Akamai hoặc các nhà cung cấp bảo vệ web khác để phòng chống tấn công DDoS, scraping và lưu lượng truy cập trái phép. Các hệ thống này có thể chặn nhầm các trình thu thập dữ liệu hợp lệ, thường trả về lỗi 403 Forbidden. Vì trình thu thập dữ liệu của OpenAI có thể giống với các mẫu lưu lượng truy cập tự động, chúng có thể bị từ chối trừ khi được đưa vào danh sách cho phép cụ thể.
Khuyến nghị: Hãy xem lại cấu hình bảo vệ web hoặc tường lửa của bạn và đưa lưu lượng truy cập từ trình thu thập dữ liệu của OpenAI vào danh sách cho phép khi có thể, lý tưởng nhất là dựa trên user agent của trình thu thập dữ liệu của chúng tôi. Đội ngũ kỹ thuật hoặc hạ tầng của bạn cũng nên kiểm tra mọi quy tắc giảm thiểu bot tự động có thể đang gây ra cảnh báo sai.
3. Xác minh con người / Logic chống bot
Tổng quan: Một số trang web triển khai các bước kiểm tra bổ sung ở cấp ứng dụng để xác minh rằng khách truy cập là con người (ví dụ: CAPTCHA, thử thách JavaScript, phân tích hành vi hoặc xác thực phiên). Vì trình thu thập dữ liệu của OpenAI là các hệ thống tự động, những bước kiểm tra này có thể chặn quyền truy cập ngay cả khi trình thu thập dữ liệu đã vượt qua thành công các lớp trước đó.
Khuyến nghị: Hãy xem lại mọi logic xác minh con người hoặc chống tự động hóa được triển khai trong ứng dụng của bạn và bảo đảm trình thu thập dữ liệu của OpenAI được miễn trừ khi phù hợp, lý tưởng nhất là bằng cách đưa user agent của trình thu thập dữ liệu của chúng tôi vào danh sách cho phép.
Lưu ý về dải IP ổn định
Một số hệ thống bảo mật yêu cầu lưu lượng truy cập từ trình thu thập dữ liệu phải xuất phát từ các dải IP ổn định, được công bố công khai thì lưu lượng mới có thể được đưa vào danh sách cho phép một cách đáng tin cậy.
Vì hạ tầng của trình thu thập dữ liệu có thể thay đổi theo thời gian, đội ngũ kỹ thuật của bạn nên tránh chỉ dựa vào các quan sát IP ngắn hạn từ nhật ký. Thay vào đó, chúng tôi khuyên bạn nên xác minh lưu lượng truy cập bằng cách kết hợp: nhận dạng user agent, chương trình bot đã được xác minh (nếu được hỗ trợ), danh sách cho phép trên tường lửa, hành vi robots.txt và các hệ thống xác minh bot ở cấp nhà cung cấp.
Nếu bạn buộc phải cho phép một danh sách dải IP ổn định, vui lòng tham khảo:
Lưu ý về giới hạn tốc độ
Các đợt tải lên hàng loạt lớn hoặc các đợt tăng đột biến lưu lượng truy cập từ trình thu thập dữ liệu đôi khi có thể kích hoạt hệ thống giới hạn tốc độ hoặc bảo vệ bot tự động.
Nếu bạn nghi ngờ đang xảy ra giới hạn tốc độ, hãy nhờ đội ngũ kỹ thuật của bạn xem lại:
Mã phản hồi HTTP (đặc biệt là 429 Too Many Requests)
Nhật ký tường lửa hoặc CDN
Sự kiện giảm thiểu bot
Quy tắc điều tiết yêu cầu
Phân tích lưu lượng truy cập xung quanh thời điểm trình thu thập dữ liệu cố gắng truy cập
Điều này có thể giúp xác định liệu các yêu cầu có đang bị cố ý làm chậm hoặc chặn bởi các biện pháp bảo vệ hạ tầng hay không.
Bạn cũng có thể cân nhắc tải quảng cáo lên theo các lô nhỏ hơn trong khoảng thời gian dài hơn.
Lưu ý về Cloudflare
OAI-AdsBot hiện đã được Cloudflare xác minh chính thức và đưa vào danh sách cho phép.
