OpenAI
এই পেজটি মেশিন দিয়ে অনুবাদ করা হয়েছে। মূল ইংরেজি আর্টিকেল দেখুন

ChatGPT এবং আমাদের ফাউন্ডেশন মডেল কীভাবে তৈরি করা হয়

আমরা কীভাবে আমাদের মডেল তৈরি করি এবং ChatGPT-এর মতো পণ্যে সেগুলো প্রয়োগ করি, সে সম্পর্কে আরও জানুন

আপডেট করা হয়েছে: 18 hours ago

নোট: সাম্প্রতিক আইনি অগ্রগতির কারণে নির্দিষ্ট কিছু সেবার ডেটা ধরে রাখার সময়সীমা প্রভাবিত হতে পারে – আরও বিস্তারিত জানতে অনুগ্রহ করে আমাদের ব্লগ পোস্ট দেখুন.

ChatGPT চালিত করে এমন মডেলসহ OpenAI-এর ফাউন্ডেশন মডেলগুলো তথ্যের তিনটি প্রধান উৎস ব্যবহার করে তৈরি করা হয়: (1) ইন্টারনেটে সর্বসাধারণের জন্য উন্মুক্ত তথ্য, (2) তৃতীয় পক্ষের সঙ্গে অংশীদারত্বের মাধ্যমে আমরা যে তথ্য অ্যাক্সেস করি, এবং (3) আমাদের ব্যবহারকারী, মানব প্রশিক্ষক ও গবেষকেরা যে তথ্য প্রদান বা তৈরি করেন.

এই নিবন্ধে আমরা এসব মডেল তৈরি করতে সহায়তার জন্য যে সর্বসাধারণের জন্য উন্মুক্ত তথ্য ব্যবহার করি এবং প্রাইভেসি আইন মেনে কীভাবে সেই তথ্য সংগ্রহ ও ব্যবহার করি, তার একটি সারসংক্ষেপ দেওয়া হয়েছে. আমাদের সেবার ব্যবহারকারীদের কাছ থেকে আমরা কীভাবে তথ্য সংগ্রহ ও ব্যবহার করি—এর মধ্যে আমাদের মডেলগুলোকে শেখাতে ChatGPT কথোপকথন ব্যবহার না করার অপ্ট আউট কীভাবে করবেন—তা বুঝতে অনুগ্রহ করে আমাদের প্রাইভেসি পলিসি এবং এই সহায়তা কেন্দ্রের নিবন্ধটি দেখুন.

ChatGPT কী এবং এটি কীভাবে কাজ করে?

ChatGPT একটি AI-ভিত্তিক সেবা, যা আপনি ইন্টারনেটের মাধ্যমে ব্যবহার করতে পারেন. তথ্য সংগঠিত ও সারসংক্ষেপ করা, অনুবাদে সহায়তা করা, ছবি বিশ্লেষণ বা তৈরি করা, সৃজনশীলতা ও ধারণায় অনুপ্রেরণা দেওয়া এবং দৈনন্দিন অন্যান্য কাজসহ নানা ধরনের কাজে আপনি ChatGPT ব্যবহার করতে পারেন. টেক্সট, ছবি, অডিও এবং ভিডিওসহ বিপুল পরিমাণ তথ্য থেকে প্যাটার্ন শিখে ব্যবহারকারীর প্রশ্ন ও নির্দেশনা বুঝতে এবং তার জবাব দিতে ChatGPT ডিজাইন করা হয়েছে. ট্রেনিংয়ের সময়, মডেলটি এই ডেটার মধ্যে সম্পর্ক বিশ্লেষণ করে—যেমন প্রেক্ষাপটে শব্দগুলো সাধারণত কীভাবে একসঙ্গে আসে—এবং সেই বোঝাপড়া ব্যবহার করে প্রতিক্রিয়া তৈরির সময় একবারে একটি করে শব্দ হিসেবে পরবর্তী সবচেয়ে সম্ভাব্য শব্দটি অনুমান করে. একইভাবে, ছবির মতো অন্যান্য ধরনের কনটেন্ট তৈরি করা মডেলগুলো পিক্সেলগুলো একে অপরের সঙ্গে এবং ট্রেনিং ডেটায় সংশ্লিষ্ট ক্যাপশনের সঙ্গে কীভাবে সম্পর্কিত, সেই প্যাটার্ন শেখে.

উদাহরণস্বরূপ, মডেলের শেখার প্রক্রিয়ায় (যা “ট্রেনিং” নামে পরিচিত), মডেলটিকে এমন একটি বাক্য সম্পূর্ণ করতে বলা হতে পারে: “বামে না ঘুরে, সে ___ ঘুরল.” ট্রেনিংয়ের শুরুতে, এর প্রতিক্রিয়াগুলো বেশিরভাগই এলোমেলো হয়. তবে, মডেলটি বিপুল পরিমাণ টেক্সট প্রক্রিয়া করে এবং তা থেকে শেখার সঙ্গে সঙ্গে, এটি প্যাটার্ন চিনতে এবং পরবর্তী সবচেয়ে সম্ভাব্য শব্দটি অনুমান করতে আরও দক্ষ হয়ে ওঠে. এর বোঝাপড়া আরও সূক্ষ্ম করতে এবং নির্ভুলতা বাড়াতে লক্ষ লক্ষ বাক্যের ওপর এই প্রক্রিয়া পুনরাবৃত্তি করা হয়.

কারণ একটি বাক্য সম্পূর্ণ করার একাধিক সম্ভাব্য উপায় থাকতে পারে—যেমন “বামে না ঘুরে, সে ডানে ঘুরল,” “ঘুরে দাঁড়াল,” বা “পেছনে ফিরল”—তাই মডেল কীভাবে প্রতিক্রিয়া দেয়, তাতে স্বাভাবিকভাবেই কিছুটা এলোমেলোতার উপাদান থাকে. ফলে, একই প্রশ্ন ভিন্ন ভিন্ন জিজ্ঞাসায় ভিন্ন উত্তর দিতে পারে.

মেশিন লার্নিং মডেলগুলো বড় বড় সংখ্যার সেট নিয়ে গঠিত, যেগুলো “ওজন” বা “প্যারামিটার” নামে পরিচিত, এবং এর সঙ্গে থাকে এমন কোড যা সেই সংখ্যাগুলো ব্যাখ্যা করে ও ব্যবহার করে. এই মডেলগুলো যেসব ডেটায় ট্রেনিং করা হয়, সেগুলোর কপি সংরক্ষণ বা ধরে রাখে না. বরং, একটি মডেল শেখার সময়, সে যে প্যাটার্ন শনাক্ত করেছে তা প্রতিফলিত করতে তার প্যারামিটারগুলোর মান সামান্য সমন্বয় করা হয়. আগের উদাহরণে, মডেলটি এলোমেলো শব্দ অনুমান করা থেকে আরও নির্ভুল অনুমান করতে উন্নত হয়েছে—ট্রেনিংয়ের বাক্যগুলো সংরক্ষণ করে নয়, বরং তার অভ্যন্তরীণ প্যারামিটার আপডেট করে. ট্রেনিংয়ের সময় মডেল যে বাক্য, ছবি বা অডিও প্রক্রিয়া করে, সেগুলোর কপি এটি ধরে রাখে না. ChatGPT তার ট্রেনিং ডেটা থেকে “কপি ও পেস্ট” করে না—যেমন একজন শিক্ষক দীর্ঘ অধ্যয়নের পর মূল উপকরণ হুবহু মুখস্থ বা পুনরুত্পাদন না করেও ধারণাগুলোর পারস্পরিক সম্পর্ক বুঝে ধারণা ব্যাখ্যা করতে পারেন. ব্যবহারকারীর অনুরোধের জবাব তৈরি করার সময়, মডেলটি শেখা এই ওজনগুলো ব্যবহার করে নতুন কনটেন্ট অনুমান ও তৈরি করে.

ChatGPT-কে শেখাতে কী ধরনের পাবলিক তথ্য ব্যবহার করা হয়?

সর্বসাধারণের জন্য উন্মুক্ত ইন্টারনেট কনটেন্টের ক্ষেত্রে, আমরা শুধুমাত্র এমন তথ্য ব্যবহার করি যা ইন্টারনেটে বিনামূল্যে ও উন্মুক্তভাবে অ্যাক্সেসযোগ্য. আমরা ইচ্ছাকৃতভাবে পেওয়ালের পেছনে আছে বলে পরিচিত উৎস বা ডার্ক ওয়েব থেকে ডেটা সংগ্রহ করি না. এছাড়াও, আমাদের মডেলগুলো যেসব উপকরণ থেকে শিখুক তা আমরা চাই না—যেমন ঘৃণাত্মক বক্তব্য, প্রাপ্তবয়স্কদের কনটেন্ট, ব্যক্তিগত তথ্য একত্র করে এমন সাইট এবং স্প্যাম—সেগুলো সরাতে আমরা ফিল্টার প্রয়োগ করি. এরপর অবশিষ্ট তথ্য আমাদের মডেলগুলোকে ট্রেনিং দিতে ব্যবহার করা হয়.

ChatGPT-কে শেখাতে কি ব্যক্তিগত তথ্য ব্যবহার করা হয়?

অনলাইন কনটেন্টের একটি উল্লেখযোগ্য অংশ মানুষের সম্পর্কে তথ্য নিয়ে গঠিত, তাই আমাদের ট্রেনিং ডেটায় ঘটনাক্রমে ব্যক্তিগত তথ্য অন্তর্ভুক্ত থাকতে পারে. তবে, আমরা আমাদের মডেলগুলোকে ট্রেনিং দেওয়ার উদ্দেশ্যে ইচ্ছাকৃতভাবে ব্যক্তিগত তথ্য সংগ্রহ করি না.

আমরা মডেলের সক্ষমতা—যেমন অনুমান, যুক্তি এবং সমস্যা সমাধান—বিকাশের জন্য ট্রেনিং ডেটা ব্যবহার করি; ব্যবহারকারীর প্রোফাইল তৈরি, ব্যক্তিদের সঙ্গে যোগাযোগ, বা আমাদের বিজ্ঞাপন বা মার্কেটিং প্রচেষ্টার অংশ হিসেবে নয়.

কিছু ক্ষেত্রে, নাম ও ঠিকানার মতো উপাদান ভাষায় কীভাবে কাজ করে তা বোঝার জন্য, অথবা পাবলিক ব্যক্তিত্ব ও সুপরিচিত সত্তা চিনতে, মডেলগুলো ব্যক্তিগত তথ্য থেকে শিখতে পারে. এটি মডেলকে আরও নির্ভুল এবং প্রাসঙ্গিকভাবে উপযুক্ত প্রতিক্রিয়া তৈরি করতে সহায়তা করে.

ট্রেনিংয়ের সময় ব্যক্তিগত তথ্য প্রক্রিয়াকরণ সীমিত করতে আমরা সক্রিয় পদক্ষেপ নিই. উদাহরণস্বরূপ, আমরা এমন উৎস বাদ দিই যেগুলো বিপুল পরিমাণ ব্যক্তিগত ডেটা একত্র করে, এবং ব্যক্তিদের সম্পর্কে ব্যক্তিগত বা সংবেদনশীল তথ্যের অনুরোধে সাড়া দেওয়া এড়াতে আমরা আমাদের মডেলগুলোকে ট্রেনিং দিই.

ChatGPT-এর বিকাশ কীভাবে প্রাইভেসি আইন মেনে চলে?

আমরা ট্রেনিং তথ্য আইনসম্মতভাবে ব্যবহার করি. আমাদের ফাউন্ডেশন মডেলগুলো কনটেন্ট তৈরি এবং গ্রাহক সহায়তা থেকে শুরু করে সফটওয়্যার উন্নয়ন, ব্যক্তিগতকৃত শিক্ষা এবং বৈজ্ঞানিক গবেষণা পর্যন্ত বিস্তৃত উপকারী অ্যাপ্লিকেশনকে শক্তি দেয়. এই সক্ষমতাগুলো লার্জ-স্কেল ট্রেনিং ডেটার ওপর নির্ভর করে. আমাদের মডেলগুলোকে ট্রেনিং দিতে ব্যবহৃত তথ্য সর্বসাধারণের জন্য উন্মুক্ত এবং ব্যক্তির ক্ষতি করার উদ্দেশ্যে নয়. ট্রেনিং তথ্যে অন্তর্ভুক্ত ব্যক্তিগত তথ্য আমাদের সংগ্রহ ও ব্যবহার GDPR-এর মতো প্রাইভেসি আইনের অধীনে বৈধ স্বার্থের ভিত্তিতে করা হয়, যা আমাদের প্রাইভেসি পলিসি-তে আরও বিস্তারিতভাবে ব্যাখ্যা করা হয়েছে. আমরা এই তথ্য আইনসম্মত ও দায়িত্বশীলভাবে সংগ্রহ ও ব্যবহার করছি তা নিশ্চিত করতে সহায়তার জন্য একটি ডেটা সুরক্ষা প্রভাব মূল্যায়ন সম্পন্ন করেছি.


আমরা আপত্তির অনুরোধ এবং অনুরূপ অধিকারের অনুরোধের জবাব দিই. ভাষা শেখার ফল হিসেবে, ChatGPT-এর প্রতিক্রিয়ায় কখনও কখনও এমন ব্যক্তিদের ব্যক্তিগত তথ্য থাকতে পারে, যাদের ব্যক্তিগত তথ্য পাবলিক ইন্টারনেটে একাধিকবার দেখা যায় (যেমন, পাবলিক ব্যক্তিত্ব). নির্দিষ্ট কিছু বিচারব্যবস্থার ব্যক্তিরা আমাদের মডেলগুলোর মাধ্যমে তাদের ব্যক্তিগত তথ্য প্রক্রিয়াকরণের বিষয়ে আপত্তি জানাতে পারেন অথবা আমাদের প্রাইভেসি পোর্টাল-এর মাধ্যমে অন্যান্য ডেটা সাবজেক্ট অধিকার সংক্রান্ত অনুরোধ করতে পারেন. আপনি dsar@openai.com-এ যোগাযোগ করেও এই অধিকারগুলো প্রয়োগ করতে পারেন.

অনুগ্রহ করে সচেতন থাকুন যে, প্রাইভেসি আইন অনুযায়ী, কিছু অধিকার সম্পূর্ণ নিরঙ্কুশ নাও হতে পারে. আমাদের কাছে আইনসম্মত কারণ থাকলে আমরা কোনো অনুরোধ প্রত্যাখ্যান করতে পারি. তবে, আমরা ব্যক্তিগত তথ্যের সুরক্ষাকে অগ্রাধিকার দেওয়ার চেষ্টা করি এবং প্রযোজ্য সব প্রাইভেসি আইন মেনে চলি. আপনি যদি মনে করেন আমরা কোনো বিষয় যথাযথভাবে সমাধান করিনি, তাহলে আপনার স্থানীয় তত্ত্বাবধায়ক কর্তৃপক্ষের কাছে অভিযোগ দায়ের করার অধিকার আপনার আছে.


আপনি যখন আমাদের ওয়েবসাইট, অ্যাপ্লিকেশন এবং সেবা ব্যবহার করেন, তখন আপনার কাছ থেকে বা আপনার সম্পর্কে আমরা যে ব্যক্তিগত তথ্য সংগ্রহ করি, সে বিষয়ে OpenAI-এর চর্চা সম্পর্কে আরও জানতে অনুগ্রহ করে আমাদের প্রাইভেসি পলিসি দেখুন.

এই নিবন্ধটি কি সহায়ক ছিল?