ملاحظة: قد تتأثر مدة الاحتفاظ بالبيانات لبعض الخدمات بسبب التغييرات القانونية التي طرأت حديثًا؛ لمزيد من التفاصيل، يُرجى الاطلاع على منشور المدونة.
تُطوَّر النماذج الأساسية من OpenAI، بما في ذلك النماذج التي تشغّل ChatGPT، باستخدام ثلاثة مصادر رئيسية للمعلومات: (1) المعلومات المتاحة للجميع على الإنترنت، و(2) المعلومات التي نحصل عليها عبر شراكات مع أطراف خارجية، و(3) المعلومات التي يقدّمها أو ينتجها المستخدمون والمدربون البشريون والباحثون.
تقدم هذه المقالة نظرة عامة على المعلومات المتاحة للجميع والتي نستخدمها لتطوير هذه النماذج، وطريقة جمعنا لهذه المعلومات واستخدامها بما يتوافق مع قوانين الخصوصية. وللتعرّف على طريقة جمعنا واستخدامنا للمعلومات من مستخدمي خدماتنا، بما في ذلك كيفية إلغاء الاشتراك في استخدام محادثات ChatGPT لتدريب نماذجنا، يُرجى الاطلاع على سياسة الخصوصية الخاصة بنا وهذه المقالة في مركز المساعدة.
ما هو ChatGPT وكيف يعمل؟
ChatGPT هو خدمة قائمة على الذكاء الاصطناعي يمكنك الوصول إليها عبر الإنترنت. يمكنك استخدام ChatGPT في مجموعة واسعة من المهام، بما في ذلك تنظيم المعلومات وتلخيصها، والمساعدة في الترجمة، وتحليل الصور أو إنشائها، واستلهام الإبداع والأفكار، وغيرها من الأنشطة اليومية. تم تصميم ChatGPT لفهم أسئلة المستخدمين وتعليماتهم والرد عليها من خلال استخلاص الأنماط من مجموعة هائلة من المعلومات، بما في ذلك النصوص والصور والصوت والفيديو. أثناء التدريب، يحلّل النموذج العلاقات داخل هذه البيانات، مثل كيفية ظهور الكلمات معًا في السياق، ويستخدم هذا الفهم للتنبؤ بالكلمة التالية المرجح استخدامها عند الرد، كلمة واحدة في كل مرة. وبالمثل، تتعلم النماذج التي تخلق أشكالًا أخرى من المحتوى، مثل الصور، استخلاص الأنماط لمعرفة كيفية ارتباط وحدات البكسل بعضها ببعض وبالتسميات التوضيحية المرتبطة بها في بيانات التدريب.
على سبيل المثال، أثناء عملية تعليم النموذج (المعروفة باسم «التدريب»)، قد يُطلب من النموذج إكمال جملة مثل: «بدلًا من الانعطاف يسارًا، انعطفت ___.» في بدايات التدريب، تكون استجابته عشوائية إلى حد كبير. ومع ذلك، فكلما عالج النموذج وتعلّم من كمية هائلة من النصوص، كلما أصبح أفضل في التعرّف على الأنماط والتنبؤ بالكلمة التالية المرجح استخدامها. تُكرَّر هذه العملية عبر ملايين الجُمل لصقل فهمه وتحسين دقته.
نظرًا لوجود عدة طرق معقولة لإكمال الجملة، مثل "بدلًا من أن تنعطف يسارًا، انعطفت يمينًا"، أو "استدارت"، أو "عادت أدراجها"، فهناك عنصر جوهري من العشوائية في كيفية استجابة النموذج. ونتيجةً لذلك، قد يؤدي السؤال نفسه إلى إجابات مختلفة عبر استعلامات مختلفة.
تتكون نماذج تعلّم الآلة من مجموعات كبيرة من الأرقام، تُعرف باسم ”الأوزان“ أو ”المعلمات“، إلى جانب شفرة تفسّر تلك الأرقام وتستخدمها. لا تخزّن هذه النماذج نسخًا من البيانات التي يتم التدريب عليها ولا تحتفظ بها. بدلاً من ذلك، ومع تعلّم النموذج، يتم تعديل قيم معلماته تعديلاً طفيفًا لتعكس الأنماط التي تعرّف عليها. ففي المثال السابق، تحسّن النموذج من التنبؤ بكلمات عشوائية إلى تقديم تنبؤات أكثر دقة، ليس عبر تخزين جمل التدريب، بل عبر تحديث معلماته الداخلية. لا يحتفظ النموذج بنسخ من الجُمل أو الصور أو الصوت الذي يعالجه أثناء التدريب. لا يقوم ChatGPT بعملية «النسخ واللصق» من بيانات التدريب، تمامًا مثلما يفعل المعلم بعد دراسة مستفيضة، فهو يشرح المفاهيم من خلال فهم العلاقات بين الأفكار من دون حفظ المواد الأصلية أو إعادة إنتاجها حرفيًا. عند توليد استجابة لطلب مستخدم، فإن النموذج يستخدم هذه الأوزان المتعلَّمة للتنبؤ بمحتوى جديد وإنشائه.
ما نوع المعلومات العامة التي تُستخدم لتدريب ChatGPT؟
بالنسبة إلى محتوى الإنترنت المتاح للجميع، فنحن لا نستخدم سوى المعلومات المتاحة مجانًا وبشكل مفتوح على الإنترنت. فنحن لا نجمع عمدًا بيانات من مصادر يُعرف أنها تقع خلف جدران الدفع أو من الإنترنت المظلم. بالإضافة إلى ذلك، نطبّق عوامل تصفية لإزالة المواد التي لا نريد لنماذجنا أن تتعلّم منها، مثل خطاب الكراهية، والمحتوى المخصّص للبالغين، والمواقع التي تجمع المعلومات الشخصية، والبريد العشوائي. ثم تُستخدم المعلومات المتبقية لتدريب نماذجنا.
هل تُستخدم المعلومات الشخصية في تدريب ChatGPT؟
يتضمن جزء كبير من المحتوى المتاح عبر الإنترنت معلومات عن أشخاص، ولذلك قد تتضمن بيانات التدريب لدينا معلومات شخصية بشكل عَرَضي. ومع ذلك، فإننا لا نجمع عمدًا معلومات شخصية لغرض تدريب نماذجنا.
نستخدم بيانات التدريب لتطوير قدرات النموذج، مثل التنبؤ والاستدلال وحل المشكلات، وليس لإنشاء ملفات شخصية للمستخدمين أو التواصل مع الأفراد أو استخدامها كجزء من جهودنا الإعلانية أو التسويقية.
في بعض الحالات، قد يتعلم النموذج من المعلومات الشخصية لفهم كيفية تكوين عناصر مثل الأسماء والعناوين في اللغة أو للتعرف على الشخصيات العامة والكيانات المعروفة. وذلك يساعد النموذج في إنشاء ردود أكثر دقة وملاءمة للسياق.
نتخذ خطوات فعّالة للحد من معالجة المعلومات الشخصية أثناء التدريب. فعلى سبيل المثال، نستبعد المصادر التي تجمع كميات كبيرة من البيانات الشخصية، وندرّب نماذجنا على تجنب الاستجابة لطلبات الحصول على معلومات خاصة أو حساسة عن الأفراد.
كيف يتوافق تطوير ChatGPT مع قوانين الخصوصية؟
نحن نستخدم معلومات التدريب بشكل قانوني. تدعم نماذجنا التأسيسية مجموعة واسعة من التطبيقات المفيدة، من إنشاء المحتوى ودعم العملاء إلى تطوير البرمجيات والتعليم المخصص والبحث العلمي. تعتمد هذه القدرات على بيانات تدريب على نطاق واسع. المعلومات المستخدمة في تدريب نماذجنا متاحة للجميع ولا يُقصد بها إلحاق الأذى بالأفراد. نستند في جمعنا واستخدامنا للمعلومات الشخصية المدرجة ضمن معلومات التدريب إلى المصالح المشروعة بموجب قوانين الخصوصية مثل اللائحة العامة لحماية البيانات (GDPR)، كما هو موضح بالتفصيل في سياسة الخصوصية الخاصة بنا. لقد أكملنا تقييمًا لأثر حماية البيانات للمساعدة في ضمان أننا نجمع هذه المعلومات ونستخدمها بصورة قانونية ومسؤولة.
نستجيب لطلبات الاعتراض والحقوق المماثلة. بسبب طبيعة تعلّم اللغات، تشتمل إجابات ChatGPT في بعض الأحيان على معلومات تخص أشخاصًا تكرر ذكر بياناتهم الشخصية مرارًا في الفضاء الرقمي العام (مثل الشخصيات الشهيرة). يمكن للأفراد في ولايات قضائية معينة الاعتراض على معالجة معلوماتهم الشخصية بواسطة نماذجنا أو تقديم طلبات أخرى متعلقة بحقوق أصحاب البيانات عبر بوابة الخصوصية. يمكنك أيضًا ممارسة هذه الحقوق من خلال التواصل عبر dsar@openai.com.
يرجى العلم بأنه بموجب قوانين الخصوصية، قد لا تكون بعض الحقوق مطلقة. يمكننا رفض أي طلب إذا كان لدينا سبب قانوني للقيام بذلك. ومع ذلك، نسعى جاهدين إلى إعطاء الأولوية لحماية المعلومات الشخصية والامتثال لجميع قوانين الخصوصية المعمول بها. وفي حال اعتبرت استجابتنا لطلبك غير وافية، يمكنك ممارسة حقك في رفع شكوى لدى الجهة الرقابية المختصة في منطقتك.
لمزيد من المعلومات حول ممارسات OpenAI فيما يتعلق بالمعلومات الشخصية التي نجمعها منك أو عنك عند استخدامك لموقعنا الإلكتروني وتطبيقاتنا وخدماتنا، يُرجى مراجعة سياسة الخصوصية.
