เรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่เราพัฒนาโมเดลของเราและนำไปใช้ในผลิตภัณฑ์อย่าง ChatGPT

โมเดลพื้นฐานของ OpenAI รวมถึงโมเดลที่ขับเคลื่อน ChatGPT ได้รับการพัฒนาโดยใช้แหล่งข้อมูลหลัก 3 แหล่ง ได้แก่ (1) ข้อมูลที่เผยแพร่ต่อสาธารณะบนอินเทอร์เน็ต (2) ข้อมูลที่เราเข้าถึงผ่านความร่วมมือกับบุคคลที่สาม และ (3) ข้อมูลที่ผู้ใช้ ผู้ฝึกสอนที่เป็นมนุษย์ และนักวิจัยของเราให้ไว้หรือสร้างขึ้น

การพัฒนาโมเดลพื้นฐานอย่างที่ใช้ใน ChatGPT มีหลายขั้นตอน รวมถึงการเตรียมข้อมูลสำหรับเทรน pre-training และ post-training ตลอดจนการประเมินและปรับปรุงอย่างต่อเนื่องหลังการนำไปใช้งาน ข้อมูลประเภทต่าง ๆ อาจถูกใช้ในขั้นตอนเหล่านี้เพื่อวัตถุประสงค์หลายประการ รวมถึงการปรับปรุงประสิทธิภาพ ความน่าเชื่อถือ และความปลอดภัยของโมเดล

บทความนี้ให้ภาพรวมเกี่ยวกับข้อมูลที่เราใช้เพื่อช่วยพัฒนาโมเดลเหล่านี้ วิธีที่เราเก็บรวบรวมและใช้ข้อมูลดังกล่าวให้เป็นไปตามกฎหมายความเป็นส่วนตัว และมาตรการป้องกันที่เราใช้ตลอดกระบวนการเทรน หากต้องการทำความเข้าใจว่าเราเก็บรวบรวมและใช้ข้อมูลจากผู้ใช้บริการของเราอย่างไร รวมถึงวิธีเลือกไม่ให้ใช้การสนทนาใน ChatGPT เพื่อช่วยปรับปรุงโมเดลของเรา โปรดดูนโยบายความเป็นส่วนตัวและบทความศูนย์ช่วยเหลือนี้ของเรา

ChatGPT คืออะไรและทำงานอย่างไร

ChatGPT เป็นบริการที่ใช้ปัญญาประดิษฐ์ซึ่งคุณเข้าถึงได้ผ่านอินเทอร์เน็ตหรือแอป คุณสามารถใช้ ChatGPT ทำงานได้หลากหลาย เช่น จัดระเบียบและสรุปข้อมูล ช่วยแปลภาษา สนับสนุนการเขียนโค้ด การวิจัยและการวิเคราะห์ ทำงานหลายขั้นตอนข้ามเครื่องมือต่าง ๆ วิเคราะห์หรือสร้างรูปภาพ จุดประกายความคิดสร้างสรรค์และไอเดีย รวมถึงกิจกรรมในชีวิตประจำวันอื่น ๆ ChatGPT ออกแบบมาเพื่อทำความเข้าใจและตอบคำถามกับคำสั่งของผู้ใช้ โดยเรียนรู้รูปแบบจากข้อมูลจำนวนมาก รวมถึงข้อความ รูปภาพ เสียง และวิดีโอ

ระหว่างการเทรน โมเดลจะวิเคราะห์ความสัมพันธ์ภายในข้อมูลนี้ เช่น โดยทั่วไปคำต่าง ๆ ปรากฏร่วมกันอย่างไรในบริบท และใช้ความเข้าใจนั้นคาดการณ์คำถัดไปที่เป็นไปได้มากที่สุดเมื่อสร้างคำตอบ ทีละคำ ข้อความอาจถูกแปลงเป็นหน่วยย่อย ๆ ซึ่งบางครั้งเรียกว่า “Token” ซึ่งอาจแทนคำทั้งคำ ส่วนของคำ หรือเครื่องหมายวรรคตอน Token คือหน่วยพื้นฐานของข้อความที่โมเดลประมวลผล ในทำนองเดียวกัน โมเดลที่สร้างเนื้อหารูปแบบอื่น เช่น รูปภาพ จะเรียนรู้รูปแบบว่าพิกเซลสัมพันธ์กันเองและสัมพันธ์กับคำบรรยายประกอบในข้อมูลเทรนอย่างไร

ตัวอย่างเช่น ระหว่างกระบวนการเรียนรู้ของโมเดล (ที่เรียกว่า “การเทรน”) โมเดลอาจได้รับโจทย์ให้เติมประโยค เช่น “แทนที่จะเลี้ยวซ้าย เธอเลี้ยว ___” ในช่วงต้นของการเทรน คำตอบของโมเดลจะค่อนข้างสุ่ม อย่างไรก็ตาม เมื่อโมเดลประมวลผลและเรียนรู้จากข้อความจำนวนมาก โมเดลจะจดจำรูปแบบและคาดการณ์คำถัดไปที่เป็นไปได้มากที่สุดได้ดีขึ้น กระบวนการนี้จะทำซ้ำกับประโยคนับล้าน เพื่อขัดเกลาความเข้าใจของโมเดลและเพิ่มความแม่นยำ

เนื่องจากมีหลายวิธีที่สมเหตุสมผลในการเติมประโยคให้สมบูรณ์ เช่น “แทนที่จะเลี้ยวซ้าย เธอเลี้ยวขวา” “หันกลับ” หรือ “ถอยกลับ” วิธีที่โมเดลตอบจึงมีองค์ประกอบของความสุ่มอยู่ในตัว ดังนั้น คำถามเดียวกันอาจให้คำตอบที่แตกต่างกันในการถามแต่ละครั้ง

โมเดลแมชชีนเลิร์นนิงประกอบด้วยชุดตัวเลขขนาดใหญ่ที่เรียกว่า “weights” หรือ “parameters” พร้อมกับโค้ดที่ตีความและใช้ตัวเลขเหล่านั้น โมเดลเหล่านี้ไม่ได้จัดเก็บหรือเก็บสำเนาของข้อมูลที่ใช้เทรนไว้ แต่เมื่อโมเดลเรียนรู้ ค่าของพารามิเตอร์จะถูกปรับเล็กน้อยเพื่อสะท้อนรูปแบบที่โมเดลระบุได้ ในตัวอย่างก่อนหน้า โมเดลพัฒนาจากการคาดเดาคำแบบสุ่มไปสู่การคาดการณ์ที่แม่นยำขึ้น ไม่ใช่ด้วยการจัดเก็บประโยคที่ใช้เทรน แต่ด้วยการอัปเดตพารามิเตอร์ภายในของโมเดล โมเดลไม่ได้เก็บสำเนาของประโยค รูปภาพ หรือเสียงที่ประมวลผลระหว่างการเทรน ChatGPT ไม่ได้ “คัดลอกและวาง” จากข้อมูลที่ใช้เทรน คล้ายกับครูที่ผ่านการศึกษาอย่างลึกซึ้งแล้วสามารถอธิบายแนวคิดต่าง ๆ จากความเข้าใจความสัมพันธ์ระหว่างไอเดีย โดยไม่ต้องท่องจำหรือถ่ายทอดเนื้อหาต้นฉบับแบบคำต่อคำ เมื่อสร้างคำตอบให้คำขอของผู้ใช้ โมเดลจะใช้ weights ที่เรียนรู้มาเหล่านี้เพื่อคาดการณ์และสร้างเนื้อหาใหม่

ข้อมูลประเภทใดที่ใช้สอน ChatGPT

สำหรับเนื้อหาบนอินเทอร์เน็ตที่เผยแพร่ต่อสาธารณะ เราใช้เฉพาะข้อมูลที่เข้าถึงได้อย่างเสรีและเปิดเผยบนอินเทอร์เน็ตเท่านั้น ข้อมูลนี้อาจรวมถึงหน้าเว็บที่เผยแพร่ต่อสาธารณะ ฟอรัมสาธารณะ บล็อกสาธารณะ โพสต์สาธารณะ และเนื้อหาออนไลน์อื่น ๆ ที่เผยแพร่ต่อสาธารณะ ตัวอย่างเช่น หากคุณเข้าร่วมฟอรัมสนทนาออนไลน์ที่เปิดให้สาธารณะเข้าถึง หรือโพสต์บล็อกสาธารณะหรือโพสต์อื่น ๆ เราอาจใช้เนื้อหาที่สาธารณะเข้าถึงได้นั้นเพื่อวัตถุประสงค์ในการเทรนโมเดล อย่างไรก็ตาม เราดำเนินการเพื่อลดการประมวลผลข้อมูลส่วนบุคคลในกระบวนการเทรนของเรา เมื่อเก็บรวบรวมเนื้อหาบนอินเทอร์เน็ตที่เผยแพร่ต่อสาธารณะ เราไม่ได้ตั้งใจรวบรวมข้อมูลจากแหล่งที่ทราบว่าอยู่หลัง paywall หรือจาก dark web นอกจากนี้ เรายังใช้ตัวกรองเพื่อนำเนื้อหาที่เราไม่ต้องการให้โมเดลเรียนรู้ออก เช่น ถ้อยคำสร้างความเกลียดชัง เนื้อหาสำหรับผู้ใหญ่ เว็บไซต์ที่รวบรวมข้อมูลส่วนบุคคล และสแปม จากนั้นจึงนำข้อมูลที่เหลือไปใช้เทรนโมเดลของเรา

เจ้าของเว็บไซต์สามารถจัดการได้ว่าเนื้อหาที่เผยแพร่ต่อสาธารณะจากเว็บไซต์ของตนจะถูกเข้าถึงเพื่อใช้ในการเทรนหรือไม่ โดยใช้การควบคุมเว็บมาตรฐาน เช่น robots.txt เพื่อไม่อนุญาต GPTBot ซึ่งอาจรวบรวมข้อมูลเนื้อหาที่เผยแพร่ต่อสาธารณะเพื่อช่วยเทรนโมเดลของเรา เรามีแนวทางแนะนำเพื่อช่วยให้เจ้าของเว็บไซต์จัดการวิธีที่เว็บไซต์และเนื้อหาของตนโต้ตอบกับระบบ AI ของเรา

เรายังใช้ข้อมูลจากพาร์ทเนอร์บุคคลที่สามเพื่อช่วยเทรนและปรับปรุงโมเดลของเรา ข้อมูลนี้อาจรวมถึงข้อมูลในชุดข้อมูลที่เราเข้าถึงผ่านข้อตกลงกับบุคคลที่สาม ตลอดจนข้อมูลที่ผู้ฝึกสอนที่เป็นมนุษย์และนักวิจัยให้ไว้หรือสร้างขึ้น ในกรณีที่นโยบายและข้อตกลงของเราอนุญาต สิ่งนี้ช่วยปรับปรุงคุณภาพ ความปลอดภัย และประสิทธิภาพของโมเดลของเรา แหล่งข้อมูลเหล่านี้อาจรวมถึงข้อความ รูปภาพ เสียง วิดีโอ หรือข้อมูลประเภทอื่น ๆ ขึ้นอยู่กับชุดข้อมูล

เรายังใช้ข้อมูลสังเคราะห์มากขึ้นในบางกระบวนการเทรน ตัวอย่างเช่น เราอาจใช้ข้อมูลและโมเดลของเราเพื่อสร้างพรอมต์สังเคราะห์ ตัวอย่างหลายภาษา หรือสื่อสำหรับเทรนอื่น ๆ ข้อมูลสังเคราะห์สามารถช่วยปรับปรุงประสิทธิภาพของโมเดลได้ เช่น โดยเสริมข้อมูลเทรนในด้านที่มีข้อมูลน้อยหรือไม่สมดุล และยังอาจสนับสนุนแนวทางการพัฒนาโมเดลที่ช่วยยกระดับความเป็นส่วนตัวด้วย

มีการใช้ข้อมูลส่วนบุคคลเพื่อสอน ChatGPT หรือไม่

เนื้อหาออนไลน์ส่วนใหญ่เกี่ยวข้องกับข้อมูลเกี่ยวกับผู้คน ดังนั้นข้อมูลเทรนของเราอาจมีข้อมูลส่วนบุคคลรวมอยู่โดยบังเอิญ อย่างไรก็ตาม เราดำเนินการเพื่อลดการประมวลผลข้อมูลส่วนบุคคลในกระบวนการเทรนของเรา

เราใช้ข้อมูลเทรนเพื่อพัฒนาความสามารถของโมเดล เช่น การคาดการณ์ การให้เหตุผล และการแก้ปัญหา ไม่ใช่เพื่อสร้างโปรไฟล์ของบุคคล ติดต่อบุคคลเหล่านั้น หรือปรับโฆษณาให้เหมาะกับบุคคลเหล่านั้น

ในบางกรณี โมเดลอาจเรียนรู้จากข้อมูลส่วนบุคคลเพื่อทำความเข้าใจว่าองค์ประกอบอย่างชื่อและที่อยู่ทำหน้าที่อย่างไรในภาษา หรือเพื่อจดจำบุคคลสาธารณะและหน่วยงานที่เป็นที่รู้จัก สิ่งนี้ช่วยให้โมเดลสร้างคำตอบที่แม่นยำและเหมาะสมกับบริบทมากขึ้น

ข้อมูลส่วนบุคคลได้รับการคุ้มครองอย่างไรระหว่างการเทรน

เราดำเนินการเชิงรุกเพื่อจำกัดการประมวลผลข้อมูลส่วนบุคคลระหว่างการเทรน ตัวอย่างเช่น เราไม่รวมแหล่งข้อมูลที่ทราบว่ารวบรวมข้อมูลส่วนบุคคลจำนวนมาก ใช้การกรองเพื่อลดข้อมูลส่วนบุคคลในกระบวนการเทรน และดำเนินการเพื่อระบุและลบเนื้อหาที่ซ้ำกันเพื่อลดความเสี่ยงของการทำซ้ำข้อมูลเทรน นอกจากนี้ เรายังเทรนโมเดลของเราให้หลีกเลี่ยงการตอบคำขอเกี่ยวกับข้อมูลส่วนตัวหรือข้อมูลอ่อนไหวของบุคคล

เราจะเก็บรักษาข้อมูลไว้นานเพียงใด

เราเก็บรักษาข้อมูลในข้อมูลเทรนไว้เฉพาะเท่าที่จำเป็นอย่างสมเหตุสมผลเพื่อวัตถุประสงค์ที่อธิบายไว้ในบทความนี้และในนโยบายความเป็นส่วนตัวของเรา รวมถึงเพื่อพัฒนาและปรับปรุงโมเดลของเรา และเพื่อวัตถุประสงค์ด้านการวิจัยทางวิทยาศาสตร์ที่เกี่ยวข้อง การเก็บรักษาจะได้รับการทบทวนเป็นระยะเพื่อให้แน่ใจว่ายังคงจำเป็น และจะแตกต่างกันไปตามประเภทของข้อมูลและวิธีการใช้งาน ในการกำหนดระยะเวลาการเก็บรักษา เราพิจารณาปัจจัยต่าง ๆ เช่น วัตถุประสงค์ในการประมวลผลข้อมูล ปริมาณ ลักษณะ และความอ่อนไหวของข้อมูล ความเสี่ยงที่อาจเกิดอันตรายจากการใช้หรือการเปิดเผยโดยไม่ได้รับอนุญาต และภาระผูกพันทางกฎหมายใด ๆ ที่เราต้องปฏิบัติตาม

การพัฒนา ChatGPT เป็นไปตามกฎหมายความเป็นส่วนตัวอย่างไร

เราใช้ข้อมูลสำหรับเทรนอย่างถูกต้องตามกฎหมาย โมเดลพื้นฐานของเราขับเคลื่อนแอปพลิเคชันที่เป็นประโยชน์หลากหลายประเภท รวมถึงเครื่องมือช่วยการเข้าถึง การสนับสนุนลูกค้า การพัฒนาซอฟต์แวร์ การศึกษาเฉพาะบุคคล และการวิจัยทางวิทยาศาสตร์ ความสามารถเหล่านี้อาศัยข้อมูลการเทรนโมเดลขนาดใหญ่ รวมถึงข้อมูลที่เผยแพร่ต่อสาธารณะ และข้อมูลจากพาร์ทเนอร์บุคคลที่สาม เราใช้มาตรการป้องกันตลอดกระบวนการเทรน รวมถึงขั้นตอนที่ออกแบบมาเพื่อลดการประมวลผลข้อมูลส่วนบุคคลในกระบวนการเทรนและเพื่อลดความเสี่ยง ตามที่อธิบายไว้ในบทความนี้ เราอาศัยประโยชน์โดยชอบด้วยกฎหมายภายใต้กฎหมายความเป็นส่วนตัว เช่น GDPR เป็นฐานในการเก็บรวบรวมและใช้ข้อมูลส่วนบุคคลที่รวมอยู่ในข้อมูลสำหรับเทรน รวมถึงเพื่อเทรนและปรับปรุงโมเดลของเราให้เป็นประโยชน์ต่อผู้ใช้และสังคมในวงกว้าง สอดคล้องกับพันธกิจของเราที่จะทำให้ปัญญาประดิษฐ์ทั่วไปเป็นประโยชน์ต่อทุกคน ตามที่อธิบายเพิ่มเติมในนโยบายความเป็นส่วนตัวของเรา เราได้ดำเนินการประเมินผลกระทบด้านการคุ้มครองข้อมูลแล้ว เพื่อช่วยให้มั่นใจว่าเราเก็บรวบรวมและใช้ข้อมูลนี้อย่างถูกต้องตามกฎหมายและมีความรับผิดชอบ

กรณีที่ข้อมูลอาจถูกแบ่งปันหรือโอนย้าย

เราไม่ “ขาย” ข้อมูลส่วนบุคคล และจะเปิดเผยข้อมูลส่วนบุคคลในข้อมูลเทรนเฉพาะในสถานการณ์ที่จำกัดตามที่อธิบายไว้ในนโยบายความเป็นส่วนตัวของเราเท่านั้น ตัวอย่างเช่น เราอาจแบ่งปันข้อมูลกับบริษัทในเครือ ผู้ขาย และผู้ให้บริการที่สนับสนุนการพัฒนา การทดสอบ และการปรับปรุงโมเดลของเรา เรายังอาจเปิดเผยข้อมูลเมื่อเชื่อโดยสุจริตว่าการดำเนินการดังกล่าวจำเป็นต่อการปฏิบัติตามภาระผูกพันทางกฎหมาย หรือเพื่อปกป้องสิทธิ ความปลอดภัย และความมั่นคงของเรา รวมถึงของผู้ใช้ พนักงาน หรือสาธารณชน ตามที่อธิบายไว้ในนโยบายความเป็นส่วนตัวของเรา

เนื่องจากโครงสร้างพื้นฐานของเราเป็นแบบทั่วโลก ข้อมูลส่วนบุคคลในข้อมูลเทรนอาจถูกประมวลผลในประเทศนอก EEA สวิตเซอร์แลนด์ หรือสหราชอาณาจักร (รวมถึงในสหรัฐอเมริกา) เมื่อเกิดกรณีนี้ เราจะใช้มาตรการป้องกันที่เหมาะสม เช่น คำวินิจฉัยความเพียงพอของการคุ้มครองข้อมูล หรือข้อสัญญามาตรฐาน ตามที่อธิบายไว้ในนโยบายความเป็นส่วนตัวของเรา

สิทธิของคุณและวิธีใช้สิทธิเหล่านั้น

เราตอบคำขอคัดค้านและคำขอใช้สิทธิในลักษณะเดียวกัน. จากการเรียนรู้ภาษา บางครั้งคำตอบของ ChatGPT อาจมีข้อมูลส่วนบุคคลเกี่ยวกับบุคคลที่ข้อมูลส่วนบุคคลของพวกเขาปรากฏหลายครั้งบนอินเทอร์เน็ตสาธารณะ (เช่น บุคคลสาธารณะ) บุคคลในบางเขตอำนาจศาลสามารถคัดค้านการประมวลผลข้อมูลส่วนบุคคลของตนโดยโมเดลของเรา หรือยื่นคำขอใช้สิทธิอื่น ๆ ของเจ้าของข้อมูลผ่านพอร์ทัลความเป็นส่วนตัวของเรา คุณยังสามารถใช้สิทธิเหล่านี้ได้โดยติดต่อ privacy@openai.com

เพื่อช่วยให้เราประเมินและตอบคำขอของคุณ โปรดให้ข้อมูลที่เพียงพอเพื่อให้เราเข้าใจว่าคำขอของคุณเกี่ยวข้องกับข้อมูลส่วนบุคคลใด เช่น ชื่อของคุณ URL ที่เกี่ยวข้อง ตัวอย่างผลลัพธ์ของโมเดลที่เฉพาะเจาะจง หรือรายละเอียดอื่น ๆ ที่ช่วยระบุปัญหา ในบางกรณี เราอาจขอให้คุณยืนยันตัวตนหรือยืนยันว่าข้อมูลนั้นเกี่ยวข้องกับคุณ ก่อนที่เราจะดำเนินการได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีส่งคำขอเหล่านี้ รวมถึงแนวทางปฏิบัติที่ดีที่สุดและวิธีการพิจารณาคำขอ ได้ในบทความศูนย์ช่วยเหลือของเราเกี่ยวกับการลบข้อมูลส่วนบุคคลออกจาก ChatGPT เราพิจารณาคำขอตามกฎหมายความเป็นส่วนตัวที่บังคับใช้ และตอบกลับภายในระยะเวลาที่กฎหมายกำหนด

โปรดทราบว่า ตามกฎหมายความเป็นส่วนตัว สิทธิบางอย่างอาจไม่ใช่สิทธิเด็ดขาด ตัวอย่างเช่น เราอาจไม่สามารถดำเนินการตามคำขอได้ หากเราไม่สามารถยืนยันข้อมูลที่เกี่ยวข้องได้ หากคำขอไม่เกี่ยวข้องกับข้อมูลส่วนบุคคลที่ OpenAI ประมวลผล หากมีข้อยกเว้นที่ใช้บังคับ หรือหากเรามีเหตุผลอื่นที่ชอบด้วยกฎหมายในการทำเช่นนั้น คำขอจะได้รับการประเมินเป็นรายกรณี และอาจต้องชั่งดุลระหว่างสิทธิความเป็นส่วนตัวกับข้อพิจารณาสำคัญอื่น ๆ เช่น เสรีภาพในการแสดงออกและประโยชน์สาธารณะ

อย่างไรก็ตาม เรามุ่งมั่นให้ความสำคัญกับการคุ้มครองข้อมูลส่วนบุคคล และปฏิบัติตามกฎหมายความเป็นส่วนตัวที่บังคับใช้ทั้งหมด หากคุณรู้สึกว่าเราไม่ได้จัดการปัญหาอย่างเพียงพอ คุณมีสิทธิยื่นเรื่องร้องเรียนต่อหน่วยงานกำกับดูแลในพื้นที่ของคุณ

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับแนวปฏิบัติของ OpenAI เกี่ยวกับข้อมูลส่วนบุคคลที่เราเก็บรวบรวมจากคุณหรือเกี่ยวกับคุณเมื่อคุณใช้เว็บไซต์ แอปพลิเคชัน และบริการของเรา โปรดดูนโยบายความเป็นส่วนตัวของเรา

ChatGPT และโมเดลฐานรากของเราพัฒนาอย่างไร

ChatGPT คืออะไรและทำงานอย่างไร

ข้อมูลประเภทใดที่ใช้สอน ChatGPT

มีการใช้ข้อมูลส่วนบุคคลเพื่อสอน ChatGPT หรือไม่

การพัฒนา ChatGPT เป็นไปตามกฎหมายความเป็นส่วนตัวอย่างไร

บทความนี้มีประโยชน์หรือไม่