تعرّف على المزيد حول كيفية تطوير نماذجنا وتطبيقها في منتجات مثل ChatGPT

تُطوَّر النماذج الأساسية لدى OpenAI، بما في ذلك النماذج التي تُشغل ChatGPT، باستخدام ثلاثة مصادر رئيسية للمعلومات: (1) المعلومات المتاحة للعامة على الإنترنت، (2) المعلومات التي نصل إليها بالشراكة مع جهات خارجية، (3) المعلومات التي يقدّمها أو ينتجها المستخدمون والمُدرّبون البشريون والباحثون لدينا.

تمر عملية تطوير النماذج الأساسية — كتلك المستخدمة في ChatGPT — بمحطات متعددة، بدءًا من تجهيز بيانات التدريب والتدريب المسبق، وصولاً إلى مرحلة التهذيب والضبط اللاحق، فضلاً عن إجراء عمليات الفحص والتطوير المتواصلة عقب إطلاق النموذج. ويُستعان بأنماطٍ شتى من البيانات خلال تلك الفترات لأغراض متباينة، يأتي في صدارتها رفع كفاءة النموذج وتعزيز مستويات موثوقيته وأمانه.

تقدم هذه المقالة نظرة عامة على المعلومات التي نستخدمها للمساعدة في تطوير هذه النماذج، وكيفية جمعنا واستخدامنا لتلك المعلومات بما يتوافق مع قوانين الخصوصية، والتدابير الوقائية التي نطبقها طوال عملية التدريب. وللتعرّف على طريقة جمعنا واستخدامنا للمعلومات من مستخدمي خدماتنا، بما في ذلك كيفية إلغاء الاشتراك في استخدام محادثات ChatGPT لتحسين نماذجنا، يُرجى الاطلاع على سياسة الخصوصية الخاصة بنا وهذه المقالة في مركز المساعدة.

ما ChatGPT وكيف يعمل؟

ChatGPT هو خدمة قائمة على الذكاء الاصطناعي يمكنك الوصول إليها عبر الإنترنت أو التطبيق. يمكنك استخدام ChatGPT في مجموعة واسعة من المهام، بما في ذلك تنظيم المعلومات وتلخيصها، والمساعدة في الترجمة، ودعم البرمجة والبحث والتحليل، وإنجاز مهام متعددة الخطوات عبر الأدوات، وتحليل الصور أو إنشائها، واستلهام الإبداع والأفكار، وغيرها من الأنشطة اليومية. تم تصميم ChatGPT لفهم أسئلة المستخدمين وتعليماتهم والرد عليها من خلال استخلاص الأنماط من مجموعة هائلة من المعلومات، بما في ذلك النصوص والصور والصوت والفيديو.

أثناء التدريب، يحلّل النموذج العلاقات داخل هذه البيانات، مثل كيفية ظهور الكلمات معًا في السياق، ويستخدم هذا الفهم للتنبؤ بالكلمة التالية المرجح استخدامها عند الرد، كلمة واحدة في كل مرة. قد يُحوَّل النص إلى وحدات أصغر، تُسمّى أحيانًا "رموز"، وقد يمثّل الرمز كلمات كاملة أو أجزاءً من كلمات أو علامات ترقيم. وتعد الرموز لبنات بناء النص الذي يعالجه النموذج. وبالمثل، تتعلم النماذج التي تخلق أشكالًا أخرى من المحتوى، مثل الصور، استخلاص الأنماط لمعرفة كيفية ارتباط وحدات البكسل بعضها ببعض وبالتسميات التوضيحية المرتبطة بها في بيانات التدريب.

على سبيل المثال، في أثناء عملية تعلم النموذج (المعروفة باسم "التدريب")، قد يُطلب من النموذج إكمال جملة مثل: "بدلاً من الانعطاف يسارًا، انعطفت ___." في المراحل المبكرة من التدريب، تكون ردوده عشوائية إلى حد كبير. ومع ذلك، ومع معالجة النموذج لكميات ضخمة من النصوص وتعلمه منها، يصبح أفضل في التعرف على الأنماط والتنبؤ بالكلمة التالية الأكثر احتمالاً، وتتكرر هذه العملية عبر ملايين الجمل لصقل فهمه وتحسين دقته.

نظرًا لوجود عدة طرق ممكنة لإكمال الجملة مثل: "يمينًا" أو "حول" أو "للخلف"، فإن هناك عنصرًا متأصلاً من العشوائية في كيفية استجابة النموذج. ونتيجة لذلك، قد ينتج النموذج إجابات مختلفة للسؤال نفسه عبر استفسارات مختلفة.

تتكون نماذج التعلم الآلي من مجموعات كبيرة من الأرقام، تُعرف باسم "الأوزان" أو "المعلمات"، إلى جانب التعليمات البرمجية التي تفسّر هذه الأرقام وتستخدمها. لا تخزّن هذه النماذج نُسخًا من البيانات التي تُدرب عليها، بل يتم تعديل قيم المعلمات تدريجيًا لتعكس الأنماط التي اكتشفها النموذج. وفي المثال السابق، تحسّن النموذج من تخمين كلمات عشوائية إلى تقديم توقعات أكثر دقة، ليس من خلال تخزين الجمل التدريبية، بل من خلال تحديث معاملاته الداخلية. لا يحتفظ النموذج بنسخ من الجمل أو الصور أو الملفات الصوتية التي يعالجها في أثناء التدريب. لا "ينسخ ويلصق" ChatGPT من بيانات التدريب، بل على غرار الطريقة التي يمكن للمعلم، بعد دراسة مكثفة، شرح المفاهيم من خلال فهم العلاقات بين الأفكار دون حفظ المواد الأصلية أو تكرارها حرفيًا. عند إنشاء استجابة لطلب المستخدم، يستخدم النموذج هذه الأوزان المكتسبة للتنبؤ بالمحتوى وإنشائه.

ما نوع المعلومات التي تُستخدم لتدريب ChatGPT؟

بالنسبة إلى محتوى الإنترنت المتاح للجميع، فنحن لا نستخدم سوى المعلومات المتاحة مجانًا وبشكل مفتوح على الإنترنت. وقد يشمل ذلك صفحات الويب المتاحة للجمهور، والمنتديات والمدونات والمنشورات العامة، ومحتويات أخرى متاحة للجمهور عبر الإنترنت. على سبيل المثال، إذا شاركت في منتدى نقاش عبر الإنترنت متاح للعامة أو نشرت مدونة عامة أو منشورًا عامًا آخر، فقد نستخدم ذلك المحتوى المتاح للعامة لأغراض تدريب النماذج. ومع ذلك، نتخذ خطوات للحد من معالجة المعلومات الشخصية في عملية التدريب لدينا. عند جمع محتوى الإنترنت المتاح للعامة، فإننا لا نجمع عمدًا بيانات من مصادر يُعرف أنها تقع خلف جدران الدفع أو من الإنترنت المظلم. بالإضافة إلى ذلك، نطبّق عوامل تصفية لإزالة المواد التي لا نريد لنماذجنا أن تتعلّم منها، مثل خطاب الكراهية، والمحتوى المخصّص للبالغين، والمواقع التي تجمع المعلومات الشخصية، والبريد العشوائي. ثم تُستخدم المعلومات المتبقية لتدريب نماذجنا.

يمكن لأصحاب المواقع الإلكترونية التحكم فيما إذا كان بالإمكان الوصول إلى المحتوى المتاح علنًا من مواقعهم لاستخدامه في التدريب، وذلك باستخدام عناصر التحكم القياسية في الويب مثل ملف robots.txt لحظر GPTBot، والذي قد يتتبع المحتوى المتاح علنًا للمساعدة في تدريب نماذجنا. ونحن نقدّم إرشادات لمساعدة أصحاب المواقع على التحكم في كيفية تفاعل مواقعهم ومحتواهم مع أنظمة الذكاء الاصطناعي لدينا.

نحن نستخدم أيضًا معلومات من شركاء من جهات خارجية للمساعدة في تدريب نماذجنا وتحسينها. وقد يشمل ذلك معلومات واردة في مجموعات بيانات نصل إليها بموجب اتفاقيات مع جهات خارجية، بالإضافة إلى معلومات يقدمها أو ينشئها مدربون وباحثون بشريون، حيثما تسمح بذلك سياساتنا واتفاقياتنا. يساعد ذلك على تحسين جودة نماذجنا وسلامتها وأدائها. إن هذه المصادر قد تتضمن نصوصًا أو صورًا أو ملفات صوتية أو فيديوهات أو أنواعًا أخرى من البيانات، وذلك حسب مجموعة البيانات.

كما أننا نستخدم بشكل متزايد البيانات الاصطناعية في بعض عمليات التدريب؛ فعلى سبيل المثال، قد نستخدم المعلومات ونماذجنا لإنشاء مطالبات اصطناعية أو أمثلة متعددة اللغات أو مواد تدريبية أخرى. وتقدم البيانات الاصطناعية دعمًا كبيرًا لرفع كفاءة الأداء، لا سيما عبر سد الفجوات في النطاقات التي تعاني من شح البيانات أو ضعف توازنها، فضلًا عن دورها في تعزيز المنهجيات الداعمة لخصوصية البيانات أثناء مراحل تطوير النماذج.

هل تُستخدَم المعلومات الشخصية لتدريب ChatGPT؟

يتضمن جزء كبير من المحتوى المتاح عبر الإنترنت معلومات عن أشخاص، ولذلك قد تتضمن بيانات التدريب لدينا معلومات شخصية بشكل عَرَضي. ومع ذلك، نتخذ خطوات للحد من معالجة المعلومات الشخصية في عملية التدريب لدينا.

نستخدم بيانات التدريب لتطوير قدرات النموذج، مثل التنبؤ والاستدلال وحل المشكلات، وليس لإنشاء ملفات شخصية للأفراد أو التواصل معهم أو تخصيص الإعلانات لهم.

وفي بعض الحالات، قد تتعلم النماذج من المعلومات الشخصية لفهم كيفية عمل عناصر مثل الأسماء والعناوين داخل اللغة، أو للتعرّف على الشخصيات العامة والجهات المعروفة، ويساعد ذلك النموذج على إنتاج إجابات أكثر دقة وملاءمة للسياق.

كيف نحمي المعلومات الشخصية أثناء التدريب؟

نتخذ خطوات فعّالة للحد من معالجة المعلومات الشخصية أثناء التدريب. فعلى سبيل المثال، نستبعد المصادر المعروفة التي تجمع كميات كبيرة من البيانات الشخصية، ونطبّق عمليات تصفية للحد من المعلومات الشخصية في أثناء عملية التدريب، ونتخذ خطوات لتحديد المحتوى المكرر وإزالته للحد من خطر تكرار بيانات التدريب. بالإضافة إلى ذلك، ندرّب نماذجنا على تجنّب الاستجابة لطلبات الحصول على معلومات خاصة أو حساسة عن الأفراد.

مدة الاحتفاظ بالمعلومات

نحن نحتفظ بالمعلومات في بيانات التدريب فقط للفترة اللازمة معقولًا للأغراض الموضحة في هذه المقالة وسياسة الخصوصية لدينا، بما في ذلك تطوير نماذجنا وتحسينها ولأغراض البحث العلمي ذات الصلة. ويخضع الاحتفاظ بالبيانات لمراجعة دورية لضمان استمرار الضرورة، ويختلف ذلك بناءً على نوع المعلومات وكيفية استخدامها. وعند تحديد مدة الاحتفاظ، نأخذ في الاعتبار عوامل مثل الغرض من معالجة المعلومات، وحجم المعلومات وطبيعتها وحساسيتها، والمخاطر المحتملة للضرر الناجم عن الاستخدام أو الإفصاح غير المصرح بهما، وأي التزامات قانونية نخضع لها.

كيف يتوافق تطوير ChatGPT مع قوانين الخصوصية؟

نحن نستخدم معلومات التدريب بشكل قانوني. تدعم نماذجنا التأسيسية مجموعة واسعة من التطبيقات المفيدة، بما في ذلك أدوات تسهيل الوصول ودعم العملاء إلى تطوير البرمجيات والتعليم المخصص والبحث العلمي. تعتمد هذه القدرات على بيانات التدريب على نطاق واسع، بما في ذلك المعلومات المتاحة علنًا، والمعلومات الواردة من شركاء من جهات خارجية. ونحن نطبق ضمانات حماية طوال عملية التدريب، بما في ذلك الخطوات المصممة للحد من معالجة المعلومات الشخصية في عملية التدريب والتخفيف من المخاطر، كما هو موضحٌ في هذه المقالة. ونستند في جمعنا للمعلومات الشخصية المدرجة في معلومات التدريب واستخدامنا لها إلى المصالح المشروعة بموجب قوانين الخصوصية مثل اللائحة العامة لحماية البيانات (GDPR)، بما في ذلك تدريب نماذجنا وتحسينها للمستخدمين والمجتمع ككل بما يتماشى مع مهمتنا لضمان أن يعود الذكاء الاصطناعي العام بالنفع على الجميع، كما هو موضحٌ بمزيد من التفصيل في سياسة الخصوصية لدينا. لقد أكملنا تقييمًا لأثر حماية البيانات للمساعدة في ضمان أننا نجمع هذه المعلومات ونستخدمها بصورة قانونية ومسؤولة.

الحالات التي يمكن فيها مشاركة المعلومات أو نقلها

إننا لا "نبيع" المعلومات الشخصية مطلقًا، ويقتصر إفصاحنا عن المعلومات الشخصية المتضمنة في حزم التدريب على الحالات الاستثنائية الضيقة المفصلة في دليل سياسة الخصوصية لدينا. على سبيل المثال، قد نشارك المعلومات مع الشركات التابعة والمورّدين ومقدمي الخدمات الذين يدعمون تطوير نماذجنا واختبارها وتحسينها. ويجوز لنا أيضًا الإفصاح عن المعلومات إذا اعتقدنا بحسن نية أن هذا الإجراء ضروري للامتثال لالتزام قانوني أو لحماية حقوقنا وسلامتنا وأمننا وحقوق مستخدمينا وموظفينا أو الجمهور وسلامتهم وأمنهم، كما هو موضح في سياسة الخصوصية لدينا.

بما أن بنيتنا التحتية عالمية، فقد تتم معالجة المعلومات الشخصية الموجودة في بيانات التدريب في بلدانٍ خارج المنطقة الاقتصادية الأوروبية أو سويسرا أو المملكة المتحدة (بما في ذلك الولايات المتحدة). وحيثما حدث ذلك، فإننا نطبق ضمانات حماية مناسبة، مثل قرارات الكفاية أو الشروط التعاقدية القياسية، كما هو موضحٌ في سياسة الخصوصية لدينا.

حقوقك وكيفية ممارستها

نستجيب لطلبات الاعتراض وطلبات الحقوق المماثلة. بسبب طبيعة تعلّم اللغات، تشتمل إجابات ChatGPT في بعض الأحيان على معلومات تخص أشخاصًا تكرر ذكر بياناتهم الشخصية مرارًا في الفضاء الرقمي العام (مثل الشخصيات الشهيرة). يمكن للأفراد في ولايات قضائية معينة الاعتراض على معالجة معلوماتهم الشخصية بواسطة نماذجنا أو تقديم طلبات أخرى متعلقة بحقوق أصحاب البيانات عبر بوابة الخصوصية. يمكنك أيضًا ممارسة هذه الحقوق من خلال التواصل عبر privacy@openai.com.

لمساعدتنا في تقييم طلبك والاستجابة له، يُرجى تقديم معلومات كافية لتمكيننا من فهم المعلومات الشخصية التي يتعلق بها طلبك، مثل اسمك، وعناوين URL ذات الصلة، وأمثلة محددة لمخرجات النموذج، أو تفاصيل أخرى تساعد في تحديد المشكلة. وفي بعض الحالات، قد نطلب منك التحقق من هويتك أو تأكيد أن المعلومات تتعلق بك قبل أن نتمكن من اتخاذ أي إجراء. وتتوفر معلومات إضافية حول كيفية تقديم هذه الطلبات، بما في ذلك أفضل الممارسات وكيفية مراجعة الطلبات، في مقالة مركز المساعدة الخاصة بنا حول إزالة البيانات الشخصية من ChatGPT. ونحن نراجع الطلبات وفقًا لقوانين الخصوصية المعمول بها ونستجيب خلال الفترات الزمنية القانونية المطبقة.

يرجى العلم بأنه بموجب قوانين الخصوصية، قد لا تكون بعض الحقوق مطلقة. على سبيل المثال، قد لا نتمكن من تلبية طلب إذا تعذّر علينا التحقق من المعلومات ذات الصلة، أو إذا كان الطلب لا يتعلق بمعلومات شخصية تعالجها OpenAI، أو إذا كان هناك استثناء منطبق، أو إذا كان لدينا سبب قانوني آخر للقيام بذلك. تخضع الطلبات للدراسة حالةً بحالة، حيث نقوم بالمفاضلة بين الحقوق المرتبطة بالخصوصية وبين اعتبارات جوهرية أخرى، كحرية الرأي والمصلحة العامة.

ومع ذلك، نسعى جاهدين إلى إعطاء الأولوية لحماية المعلومات الشخصية والامتثال لجميع قوانين الخصوصية المعمول بها. وفي حال اعتبرت استجابتنا لطلبك غير وافية، يمكنك ممارسة حقك في رفع شكوى لدى الجهة الرقابية المختصة في منطقتك.

لمزيد من المعلومات حول ممارسات OpenAI فيما يتعلق بالمعلومات الشخصية التي نجمعها منك أو عنك عند استخدامك لموقعنا الإلكتروني وتطبيقاتنا وخدماتنا، يُرجى مراجعة سياسة الخصوصية لدينا.

كيفية تطوير ChatGPT والنماذج الأساسية لدينا

ما ChatGPT وكيف يعمل؟

ما نوع المعلومات التي تُستخدم لتدريب ChatGPT؟

هل تُستخدَم المعلومات الشخصية لتدريب ChatGPT؟

كيف يتوافق تطوير ChatGPT مع قوانين الخصوصية؟

هل كانت هذه المقالة مفيدة؟