OpenAI কেন ওয়েব ক্রলার ব্যবহার করে?
ChatGPT-এ বিজ্ঞাপন হিসেবে জমা দেওয়া ওয়েব পেজগুলোর নিরাপত্তা যাচাই করতে আমরা ক্রলার ব্যবহার করি. আপনি যখন একটি বিজ্ঞাপন জমা দেন, তখন OpenAI ল্যান্ডিং পেজটি আমাদের নীতিমালা মেনে চলছে কি না তা নিশ্চিত করতে সেটি ভিজিট করতে পারে. আমরা ল্যান্ডিং পেজের কনটেন্টও ব্যবহার করতে পারি, যাতে ব্যবহারকারীদের কাছে কখন বিজ্ঞাপনটি দেখানো সবচেয়ে প্রাসঙ্গিক হবে তা নির্ধারণ করা যায়.
কোন OpenAI ক্রলারগুলোকে আপনি অনুমতি দেবেন?
আপনাকে অবশ্যই OAI-AdsBot-কে অনুমতি দিতে হবে. আমরা OAI-AdsBot এবং OAI-SearchBot—উভয়কেই অনুমতি দেওয়ার পরামর্শ দিই.
OpenAI ক্রলারগুলো আমার ওয়েবসাইট ক্রল করতে পারছে না. আমার কী করা উচিত?
বেশিরভাগ ওয়েবসাইটে কোনো ক্রলার সফলভাবে ওয়েবপেজে প্রবেশ করার আগে একাধিক স্তরের সুরক্ষা থাকে. আমরা আপনার ইঞ্জিনিয়ারিং/সিকিউরিটি টিমের সঙ্গে কাজ করে যাচাই করার পরামর্শ দিই যে OpenAI ক্রলারগুলো নিচের প্রতিটি স্তর অতিক্রম করতে পারে:
1. robots.txt
সংক্ষিপ্ত বিবরণ: robots.txt ফাইল ক্রলারগুলোকে জানায় যে তারা আপনার ওয়েবসাইটের নির্দিষ্ট অংশে প্রবেশের অনুমতি পেয়েছে কি না. OpenAI ক্রলারগুলো এই নিয়মগুলো মেনে চলে. robots.txt-এ প্রবেশ নিষিদ্ধ থাকলে, ক্রলিং সঙ্গে সঙ্গে বন্ধ হয়ে যাবে.
সুপারিশ: আপনার robots.txt কনফিগারেশন পর্যালোচনা করুন এবং নিশ্চিত করুন যে OpenAI ক্রলারগুলোকে সংশ্লিষ্ট পেজ ও পাথে প্রবেশের জন্য স্পষ্টভাবে অনুমতি দেওয়া হয়েছে.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. ওয়েব সুরক্ষা / বট প্রতিরোধ
সংক্ষিপ্ত বিবরণ: অনেক ওয়েবসাইট DDoS আক্রমণ, স্ক্র্যাপিং এবং অননুমোদিত ট্রাফিক থেকে সুরক্ষার জন্য Cloudflare, Akamai বা অন্যান্য ওয়েব সুরক্ষা প্রদানকারীর মতো সেবা ব্যবহার করে. এই সিস্টেমগুলো ভুলবশত বৈধ ক্রলারকে ব্লক করতে পারে, এবং প্রায়ই 403 Forbidden ত্রুটি ফেরত দেয়. OpenAI ক্রলারগুলো স্বয়ংক্রিয় ট্রাফিকের মতো দেখাতে পারে বলে, নির্দিষ্টভাবে allowlist না করলে এগুলোকে অস্বীকার করা হতে পারে.
সুপারিশ: আপনার ওয়েব সুরক্ষা বা ফায়ারওয়াল কনফিগারেশন পর্যালোচনা করুন এবং যেখানে সম্ভব OpenAI ক্রলার ট্রাফিককে allowlist করুন, আদর্শভাবে আমাদের ক্রলার user agent-এর ভিত্তিতে. আপনার ইঞ্জিনিয়ারিং বা অবকাঠামো টিমের উচিত এমন যেকোনো স্বয়ংক্রিয় বট-প্রতিরোধ নিয়মও পরীক্ষা করা, যা ভুলভাবে পজিটিভ ফল দেখাতে পারে.
3. মানব যাচাই / অ্যান্টি-বট লজিক
সংক্ষিপ্ত বিবরণ: কিছু ওয়েবসাইট দর্শক মানুষ কি না তা যাচাই করতে অ্যাপ্লিকেশন-স্তরের অতিরিক্ত পরীক্ষা চালায়, যেমন: CAPTCHA, JavaScript চ্যালেঞ্জ, আচরণগত বিশ্লেষণ বা সেশন যাচাই. OpenAI ক্রলারগুলো যেহেতু স্বয়ংক্রিয় সিস্টেম, তাই ক্রলার আগের স্তরগুলো সফলভাবে পার হলেও এই পরীক্ষাগুলো প্রবেশাধিকার আটকে দিতে পারে.
সুপারিশ: আপনার অ্যাপ্লিকেশনে প্রয়োগ করা যেকোনো মানব-যাচাই বা স্বয়ংক্রিয়তা-বিরোধী লজিক পর্যালোচনা করুন এবং যেখানে উপযুক্ত সেখানে OpenAI ক্রলারগুলোকে অব্যাহতি দিন, আদর্শভাবে আমাদের ক্রলার user agent-কে allowlist করে.
স্থির IP রেঞ্জ সম্পর্কে একটি নোট
কিছু নিরাপত্তা ব্যবস্থা নির্ভরযোগ্যভাবে ট্রাফিককে allowlist করার আগে ক্রলার ট্রাফিক স্থির, প্রকাশ্যে নথিভুক্ত IP রেঞ্জ থেকে আসা বাধ্যতামূলক করে.
সময়ের সঙ্গে ক্রলার অবকাঠামো পরিবর্তিত হতে পারে, তাই আপনার ইঞ্জিনিয়ারিং টিমের শুধু লগে দেখা স্বল্পমেয়াদি IP পর্যবেক্ষণের ওপর নির্ভর করা উচিত নয়. এর পরিবর্তে, আমরা এইগুলোর সমন্বয়ে ট্রাফিক যাচাই করার পরামর্শ দিই: user-agent শনাক্তকরণ, যাচাইকৃত বট প্রোগ্রাম (যেখানে সমর্থিত), ফায়ারওয়াল allowlist, robots.txt আচরণ এবং প্রদানকারী-স্তরের বট যাচাই ব্যবস্থা.
যদি আপনাকে স্থির IP রেঞ্জের একটি তালিকা অনুমতি দিতেই হয়, তাহলে অনুগ্রহ করে দেখুন:
রেট লিমিটিং সম্পর্কে একটি নোট
বড় ব্যাচ আপলোড বা ক্রলার ট্রাফিকে হঠাৎ বেড়ে যাওয়া কখনও কখনও স্বয়ংক্রিয় রেট লিমিটিং বা বট সুরক্ষা ব্যবস্থা সক্রিয় করতে পারে.
আপনার যদি সন্দেহ হয় যে রেট লিমিটিং হচ্ছে, তাহলে আপনার ইঞ্জিনিয়ারিং টিমকে এগুলো পর্যালোচনা করতে বলুন:
HTTP response code (বিশেষ করে 429 Too Many Requests)
ফায়ারওয়াল বা CDN লগ
বট প্রতিরোধ ইভেন্ট
অনুরোধ থ্রটলিং নিয়ম
ক্রলার প্রবেশের চেষ্টা করার সময়ের আশেপাশের ট্রাফিক অ্যানালিটিক্স
এটি শনাক্ত করতে সাহায্য করতে পারে যে অবকাঠামোগত সুরক্ষার কারণে অনুরোধগুলো ইচ্ছাকৃতভাবে ধীর করা হচ্ছে নাকি ব্লক করা হচ্ছে.
আপনি আরও দীর্ঘ সময়জুড়ে ছোট ছোট ব্যাচে বিজ্ঞাপন আপলোড করার বিষয়টিও বিবেচনা করতে পারেন.
Cloudflare সম্পর্কে একটি নোট
OAI-AdsBot এখন Cloudflare দ্বারা আনুষ্ঠানিকভাবে যাচাইকৃত এবং allowlist করা হয়েছে.
