OpenAI वेब क्रॉलर्स का उपयोग क्यों करता है?
हम ChatGPT पर विज्ञापनों के रूप में सबमिट किए गए वेब पेजों की सुरक्षा सत्यापित करने के लिए क्रॉलर का उपयोग करते हैं. जब आप कोई विज्ञापन सबमिट करते हैं, तो OpenAI यह सुनिश्चित करने के लिए लैंडिंग पेज पर जा सकता है कि वह हमारी नीतियों का अनुपालन करता है. हम यह निर्धारित करने के लिए लैंडिंग पेज की सामग्री का भी उपयोग कर सकते हैं कि उपयोगकर्ताओं को विज्ञापन दिखाना कब सबसे अधिक प्रासंगिक होगा.
आपको कौन से OpenAI क्रॉलर्स की अनुमति देनी चाहिए?
आपको OAI-AdsBot को अनुमति देनी होगी. हम आपको OAI-AdsBot और OAI-SearchBot दोनों को अनुमति देने की सलाह देते हैं
OpenAI क्रॉलर मेरी वेबसाइट को क्रॉल करने में विफल रहते हैं. मुझे क्या करना चाहिए?
अधिकांश वेबसाइटों में किसी क्रॉलर द्वारा किसी वेबपेज के सफलतापूर्वक एक्सेस से पहले सुरक्षा की कई परतें होती हैं. हम सुझाव देते हैं कि आप अपनी इंजीनियरिंग/सुरक्षा टीम के साथ मिलकर यह सुनिश्चित करें कि OpenAI क्रॉलर निम्नलिखित प्रत्येक परत से होकर गुजर सकें:
एक. robots.txt
अवलोकन: robots.txt फ़ाइल क्रॉलर को बताती है कि उन्हें आपकी वेबसाइट के कुछ हिस्सों के एक्सेस की अनुमति है या नहीं. OpenAI के क्रॉलर इन नियमों का पालन करते हैं. यदि robots.txt मे एक्सेस की अनुमति नहीं है, क्रॉलिंग तुरंत रुक जाएगी.
सुझाव: अपने robots.txt कॉन्फ़िगरेशन की समीक्षा करें और पुष्टि करें कि OpenAI क्रॉलर को संबंधित पेजों और पाथ के एक्सेस की स्पष्ट रूप से अनुमति है.
User-agent: OAI-SearchBot
अनुमति दें: /
User-agent: OAI-AdsBot
अनुमति दें: /
2. वेब सुरक्षा / बॉट शमन
अवलोकन: कई वेबसाइटें DDoS हमलों, स्क्रैपिंग और अनधिकृत ट्रैफ़िक से बचाव के लिए Cloudflare, Akamai या अन्य वेब सुरक्षा प्रदाताओं जैसी सेवाओं का उपयोग करती हैं. ये सिस्टम गलती से वैध क्रॉलर को ब्लॉक कर सकते हैं, जिससे अक्सर 403 Forbidden त्रुटियां लौटाई जाती हैं. क्योंकि OpenAI क्रॉलर स्वचालित ट्रैफ़िक पैटर्न जैसे दिख सकते हैं, इसलिए उन्हें तब तक एक्सेस अस्वीकार किया जा सकता है, जब तक कि उन्हें विशेष रूप से अनुमति सूची में शामिल न किया गया हो.
सुझाव: अपने वेब सुरक्षा या फ़ायरवॉल कॉन्फ़िगरेशन की समीक्षा करें और जहाँ संभव हो, OpenAI क्रॉलर ट्रैफ़िक को अनुमति सूची में जोड़ें, आदर्श रूप से हमारे क्रॉलर यूज़र एजेंट के आधार पर. आपकी इंजीनियरिंग या इन्फ्रास्ट्रक्चर टीम को ऐसे किसी भी स्वचालित बॉट निवारण नियमों की भी जाँच करनी चाहिए, जो गलत सकारात्मक परिणाम उत्पन्न कर रहे हों.
3. मानव सत्यापन / बॉट विरोधी तर्क
अवलोकन: कुछ वेबसाइटें यह सत्यापित करने के लिए एप्लिकेशन-स्तर की अतिरिक्त जांच लागू करती हैं कि विज़िटर मानव है (उदाहरण के लिए: CAPTCHA, JavaScript चुनौतियाँ, व्यवहार संबंधी विश्लेषण, या सत्र सत्यापन). चूंकि OpenAI क्रॉलर स्वचालित सिस्टम हैं, इसलिए ये जाँचें एक्सेस को ब्लॉक कर सकती हैं, भले ही क्रॉलर पहले के स्तरों को सफलतापूर्वक पार कर ले.
सुझाव: अपने ऐप में लागू किसी भी मानव-सत्यापन या एंटी-ऑटोमेशन लॉजिक की समीक्षा करो और सुनिश्चित करें कि जहाँ ज़रूरी हो, OpenAI क्रॉलर्स को छूट दी गई हो, बेहतर होगा कि हमारे क्रॉलर यूज़र एजेंट्स को अनुमति-सूची में शामिल करके.
स्थिर IP रेंज के बारे में एक नोट
कुछ सुरक्षा प्रणालियों में क्रॉलर ट्रैफ़िक को विश्वसनीय रूप से अनुमति-सूची में शामिल करने से पहले उसका स्थिर, सार्वजनिक रूप से प्रलेखित IP रेंज से आना आवश्यक होता है.
क्योंकि क्रॉलर अवसंरचना समय के साथ विकसित हो सकती है, आपकी इंजीनियरिंग टीम को लॉग से प्राप्त अल्पकालिक IP अवलोकनों पर ही निर्भर रहने से बचना चाहिए. इसके बजाय, हम ट्रैफ़िक को इन चीज़ों के संयोजन के माध्यम से सत्यापित करने की अनुशंसा करते हैं: user-agent पहचान, सत्यापित bot प्रोग्राम (जहाँ समर्थित हो), firewall allowlists, robots.txt व्यवहार, और प्रदाता-स्तरीय bot सत्यापन प्रणालियाँ.
अगर तुम्हें IP रेंज की स्थिर सूची की अनुमति देनी है, तो इसे देखें:
दर सीमिती पर एक नोट
बड़े बैच अपलोड या क्रॉलर ट्रैफ़िक में अचानक वृद्धि कभी-कभी स्वचालित रेट लिमिटिंग या बॉट सुरक्षा सिस्टम को सक्रिय कर सकती है.
अगर आपको लगे कि रेट सीमा लग रही है, तो अपनी इंजीनियरिंग टीम से इसे चेक करने को कहें:
HTTP प्रतिक्रिया कोड (विशेषकर 429 Too Many Requests)
फ़ायरवॉल या CDN लॉग
बॉट रोकथाम घटनाएं
अनुरोध नियंत्रण नियम
उस समय के आसपास का ट्रैफ़िक विश्लेषण जब क्रॉलर ने एक्सेस करने का प्रयास किया
इससे यह पता लगाने में मदद मिलती है कि क्या अनुरोधों को इन्फ्रास्ट्रक्चर सुरक्षा उपायों द्वारा जानबूझकर धीमा किया जा रहा है या अवरुद्ध किया जा रहा है.
आप विज्ञापनों को लंबी अवधि में छोटे-छोटे बैचों में अपलोड करने पर भी विचार कर सकते हैं।
Cloudflare पर एक नोट
OAI-AdsBot अब Cloudflare द्वारा आधिकारिक रूप से सत्यापित और अनुमति-सूची में शामिल है.
