| नोट : कुछ सर्विसेज़ के लिए डेटा रिटेंशन हाल के कानूनी बदलावों से प्रभावित हो सकता है – अधिक जानकारी के लिए हमारा ब्लॉग पोस्ट देखें. |
|---|
OpenAI के फाउंडेशन मॉडल, जिनमें वे मॉडल शामिल हैं जो ChatGPT को संचालित करते हैं, तीन मुख्य स्रोतों से जानकारी प्राप्त करके विकसित किए जाते हैं:: (1) इंटरनेट पर सार्वजनिक रूप से उपलब्ध जानकारी, (2) वह जानकारी जिसे हम थर्ड पार्टी के साथ साझेदारी करके प्राप्त करते हैं, और (3) वह जानकारी जो हमारे यूज़र, मानव प्रशिक्षक, और शोधकर्ता प्रदान करते हैं या जनरेट करते हैं।
यह लेख उन सार्वजनिक रूप से उपलब्ध जानकारियों का ओवरव्यू प्रस्तुत करता है जिनका उपयोग हम इन मॉडलों के विकास में सहायता के लिए करते हैं, और यह भी बताता है कि हम गोपनीयता कानूनों का पालन करते हुए उन जानकारियों को कैसे एकत्रित और उपयोग करते हैं। हम अपनी सेवाओं के यूज़र से जानकारी कैसे एकत्र और उपयोग करते हैं, जिसमें यह भी शामिल है कि आप अपनी ChatGPT से बातचीत को हमारे मॉडल की ट्रेनिंग में उपयोग होने से कैसे रोक सकते हैं, इसे समझने के लिए कृपया हमारी गोपनीयता नीति और इस सहायता केंद्र लेख को देखें।
ChatGPT क्या है और यह कैसे काम करता है?
ChatGPT एक कृत्रिम बुद्धिमत्ता (आर्टिफ़िशियल इंटेलिजेंस) आधारित सेवा है जिसे आप इंटरनेट के माध्यम से एक्सेस कर सकते हैं। आप ChatGPT का उपयोग कई तरह के कार्यों के लिए कर सकते हैं, जैसे जानकारी को व्यवस्थित करना और उसका सार बनाना, अनुवाद में सहायता, चित्रों का विश्लेषण या जनरेट करना, रचनात्मकता और विचारों को प्रेरित करना, और अन्य रोज़मर्रा के काम। ChatGPT को इस तरह से डिज़ाइन किया गया है कि यह बड़े पैमाने पर जानकारी, जिसमें टेक्स्ट, इमेज, ऑडियो और वीडियो शामिल हैं, से पैटर्न सीखकर यूज़र के सवालों और निर्देशों को समझ सके और उनका उत्तर दे सके। ट्रेनिंग के दौरान, मॉडल इस डेटा के भीतर मौजूद संबंधों का विश्लेषण करता है — जैसे किसी संदर्भ में शब्द सामान्यतः किस क्रम में आते हैं — और उसी समझ का उपयोग करके जवाब बनाते समय एक-एक करके अगले संभावित शब्द की भविष्यवाणी करता है। इसी तरह, इमेज जैसी अन्य प्रकार की सामग्री जनरेट करने वाले मॉडल, यह सीखते हैं कि पिक्सल एक-दूसरे से और ट्रैनिंग डेटा में मौजूद कैप्शन से कैसे संबंधित होते हैं।
उदाहरण के लिए, मॉडल के सीखने की प्रक्रिया (जिसे “ट्रेनिंग” कहा जाता है) के दौरान, मॉडल को इस तरह के वाक्य को पूरा करने का टास्क दिया जा सकता है: “बाएँ मुड़ने के बजाय, वह ___ मुड़ गई।” ट्रेनिंग के शुरूआती चरण में, इसके जवाब काफी हद तक रैंडम होते हैं। हालांकि, जब मॉडल बड़ी मात्रा में टेक्स्ट को प्रोसेस करता है और उससे सीखता है, तो यह पैटर्न को पहचानने और अगले संभावित शब्द की भविष्यवाणी करने में बेहतर हो जाता है। यह प्रक्रिया लाखों वाक्यों पर दोहराई जाती है ताकि इसकी समझ को परिष्कृत किया जा सके और सटीकता बढ़ाई जा सके।
क्योंकि एक वाक्य को पूरा करने के कई सही तरीके हो सकते हैं — जैसे “बाएँ मुड़ने की बजाय, वह दाएँ मुड़ी,” “चारों ओर मुड़ी,” या “वापस मुड़ी” — इसलिए मॉडल के उत्तरों में स्वाभाविक रूप से कुछ मात्रा में यादृच्छिकता होती है। इसी कारण, एक ही प्रश्न के अलग-अलग बार पूछे जाने पर अलग-अलग उत्तर मिल सकते हैं।
मशीन लर्निंग मॉडल बहुत बड़े संख्यात्मक सेटों से बने होते हैं, जिन्हें “वेट्स” या “पैरामीटर्स” कहा जाता है, और उस कोड से जो इन संख्याओं का उपयोग और व्याख्या करता है। ये मॉडल उस डेटा की प्रतियां संग्रहीत या नहीं रखते हैं, जिन पर वे प्रशिक्षित होते हैं। इसके बजाय, जैसे-जैसे एक मॉडल सीखता है, उसके पैरामीटर्स के मानों को थोड़ा समायोजित किया जाता है ताकि वह पहचाने गए पैटर्न को दर्शा सके। पहले के उदाहरण में, मॉडल ने अनियमित शब्दों की भविष्यवाणी से सटीक भविष्यवाणी करने में सुधार किया—उसने यह ट्रेनिंग वाक्यों को स्टोर करके नहीं, बल्कि अपने आंतरिक पैरामीटर्स को अपडेट करके किया। मॉडल ट्रेनिंग के दौरान जिन वाक्यों, इमेजों या ऑडियो को प्रोसेस करता है, उनकी प्रतिलिपियाँ नहीं रखता। ChatGPT अपनी ट्रेनिंग डेटा से 'कॉपी और पेस्ट' नहीं करता —जैसे एक शिक्षक, जो गहन अध्ययन के बाद, विचारों के बीच संबंधों को समझकर अवधारणाओं को समझा सकता है, बिना मूल सामग्री को शब्दशः याद किए या पुनः प्रस्तुत किए। जब यूज़र के अनुरोध का जवाब जनरेट किया जाता है, तो मॉडल इन सीखे हुए वेट्स का उपयोग करके नए कंटेंट की भविष्यवाणी और निर्माण करता है।
ChatGPT को सिखाने के लिए किस तरह की सार्वजनिक जानकारी का उपयोग होता है?
सार्वजनिक रूप से उपलब्ध इंटरनेट सामग्री के लिए, हम केवल वही जानकारी का उपयोग करते हैं जो इंटरनेट पर स्वतंत्र और खुले रूप से उपलब्ध है। हम उन स्रोतों से जानबूझकर डेटा एकत्र नहीं करते जो पेवॉल के पीछे हों या डार्क वेब से संबंधित हों। इसके अलावा, हम ऐसे सामग्री को हटाने के लिए फ़िल्टर लागू करते हैं जिनसे हम अपने मॉडल को सीखने नहीं देना चाहते, जैसे घृणा-भाषण, वयस्क सामग्री, व्यक्तिगत जानकारी इकट्ठा करने वाली वेबसाइटें, और स्पैम। फिर शेष जानकारी का उपयोग हमारे मॉडल्स को ट्रेन करने के लिए किया जाता है।
क्या ChatGPT को सिखाने के लिए व्यक्तिगत जानकारी का उपयोग किया जाता है?
ऑनलाइन सामग्री का एक बड़ा हिस्सा लोगों की जानकारी से संबंधित होता है, इसलिए हमारे ट्रेनिंग डेटा में अनजाने में व्यक्तिगत जानकारी शामिल हो सकती है। हालांकि, हम अपने मॉडलों की ट्रेनिंग के लिए जानबूझकर व्यक्तिगत जानकारी एकत्र नहीं करते हैं।
हम ट्रेनिंग डेटा का उपयोग मॉडल की क्षमताओं—जैसे पूर्वानुमान, रीज़निंग और समस्या-समाधान—को विकसित करने के लिए करते हैं। हम इसे यूज़र प्रोफ़ाइल बनाने, व्यक्तियों से संपर्क करने, या हमारे विज्ञापन या मार्केटिंग प्रयासों के हिस्से के रूप में उपयोग नहीं करते.
कुछ मामलों में, मॉडल व्यक्तिगत जानकारी से यह सीख सकते हैं कि नाम और पते जैसी चीज़ें भाषा में कैसे काम करती हैं, या सार्वजनिक व्यक्तियों और प्रसिद्ध संस्थाओं को पहचानने में मदद मिलती है। यह मॉडल को अधिक सटीक और संदर्भानुकूल उत्तर देने में सहायता करता है।
हम ट्रेनिंग के दौरान व्यक्तिगत जानकारी की प्रोसेसिंग को सीमित करने के लिए सक्रिय कदम उठाते हैं। उदाहरण के लिए, हम उन स्रोतों को बाहर रखते हैं जो बड़ी मात्रा में व्यक्तिगत डेटा एकत्र करते हैं, और हम अपने मॉडलों को इस बात के लिए प्रशिक्षित करते हैं कि वे व्यक्तियों से संबंधित निजी या संवेदनशील जानकारी के अनुरोधों का उत्तर न दें।
ChatGPT का विकास गोपनीयता कानूनों का पालन कैसे करता है?
हम ट्रेनिंग जानकारी का उपयोग कानूनी रूप से करते हैं। हमारे फाउंडेशन मॉडल कई लाभकारी ऐप्लिकेशन को संचालित करते हैं—जैसे सामग्री निर्माण और ग्राहक सपोर्ट से लेकर सॉफ़्टवेयर विकास, व्यक्तिगत शिक्षा, और वैज्ञानिक अनुसंधान तक। ये क्षमताएँ लार्ज-स्केल ट्रेनिंग डेटा पर निर्भर करती हैं। हमारे मॉडल को ट्रेन करने के लिए उपयोग की जाने वाली जानकारी सार्वजनिक रूप से उपलब्ध है और इसका उद्देश्य व्यक्तियों को नुकसान पहुंचाना नहीं है। हम ट्रेनिंग जानकारी में शामिल व्यक्तिगत जानकारी के संग्रह और उपयोग को गोपनीयता कानूनों, जैसे कि GDPR, के तहत वैध हितों के आधार पर करते हैं, जैसा कि हमारी गोपनीयता नीति में विस्तार से समझाया गया है। हमने यह सुनिश्चित करने के लिए कि हम इस जानकारी को कानूनी और जिम्मेदारी से इकट्ठा और उपयोग कर रहे हैं, एक डेटा सुरक्षा प्रभाव आकलन पूरा कर लिया है।
हम आपत्ति अनुरोधों और समान अधिकारों का जवाब देते हैं. भाषा सीखने के परिणामस्वरूप, ChatGPT की प्रतिक्रियाओं में कभी-कभी उन व्यक्तियों की व्यक्तिगत जानकारी शामिल हो सकती है जिनकी जानकारी सार्वजनिक इंटरनेट पर कई बार दिखाई देती है (जैसे, सार्वजनिक हस्तियाँ)। कुछ अधिकार क्षेत्रों में लोग हमारे मॉडलों द्वारा उनकी व्यक्तिगत जानकारी की प्रोसेसिंग पर आपत्ति कर सकते हैं या हमारे गोपनीयता पोर्टल के माध्यम से अन्य डेटा विषय अधिकारों का अनुरोध कर सकते हैं। आप इन अधिकारों का उपयोग dsar@openai.com पर संपर्क करके भी कर सकते हैं।
कृपया ध्यान दें कि गोपनीयता कानूनों के अनुसार, कुछ अधिकार पूर्ण रूप से सुनिश्चित नहीं होते। वैध कारण होने पर हम किसी अनुरोध को अस्वीकार भी कर सकते हैं। हालाँकि, हम व्यक्तिगत जानकारी की सुरक्षा को प्राथमिकता देने का प्रयास करते हैं और सभी लागू गोपनीयता कानूनों का पालन करते हैं। यदि आपको लगता है कि हमने किसी मुद्दे को पर्याप्त रूप से संबोधित नहीं किया है, तो आपके पास अपने स्थानीय पर्यवेक्षी प्राधिकरण के पास शिकायत दर्ज कराने का अधिकार है।
हमारी वेबसाइट, ऐप्स और सेवाओं का उपयोग करते समय आप से या आपके बारे में एकत्र की गई व्यक्तिगत जानकारी के संबंध में OpenAI की प्रक्रियाओं के बारे में अधिक जानकारी के लिए कृपया हमारी गोपनीयता नीति देखें।
