Modellerimizi nasıl geliştirdiğimizi ve ChatGPT gibi ürünlerde nasıl kullandığımızı öğrenin

OpenAI’ın ChatGPT’ye güç veren modeller de dahil olmak üzere temel modelleri, üç ana bilgi kaynağı kullanılarak geliştirilir: (1) internette herkese açık olan bilgiler, (2) erişmek için üçüncü taraflarla iş birliği yaptığımız bilgiler ve (3) kullanıcılarımızın, insan eğitmenlerin ve araştırmacıların sağladığı veya oluşturduğu bilgiler.

ChatGPT’de kullanılanlar gibi temel modellerin geliştirilmesi; eğitim verilerinin hazırlanması, ön eğitim ve eğitim sonrası aşamaların yanı sıra kullanıma sunulduktan sonra sürekli değerlendirme ve iyileştirme dahil olmak üzere çeşitli aşamaları içerir. Bu aşamalarda, model performansını, güvenilirliğini ve güvenliğini iyileştirmek dahil olmak üzere çeşitli amaçlarla farklı bilgi türleri kullanılabilir.

Bu makale, bu modellerin geliştirilmesine yardımcı olmak için kullandığımız bilgilere, bu bilgileri gizlilik yasalarına uygun şekilde nasıl topladığımıza ve kullandığımıza ve eğitim süreci boyunca uyguladığımız korumalara genel bir bakış sunar. Modellerimizi iyileştirmeye yardımcı olmak için ChatGPT konuşmalarınızın kullanılmasını nasıl devre dışı bırakabileceğiniz dahil, hizmetlerimizin kullanıcılarından bilgileri nasıl topladığımızı ve kullandığımızı anlamak için lütfen gizlilik politikamıza ve bu yardım merkezi makalesine bakın.

ChatGPT nedir ve nasıl çalışır?

ChatGPT, internet veya uygulama üzerinden erişebileceğiniz yapay zeka tabanlı bir hizmettir. ChatGPT’yi bilgileri düzenlemek ve özetlemek, çevirilere yardımcı olmak, kodlama, araştırma ve analizi desteklemek, araçlar arasında çok adımlı görevleri tamamlamak, görüntüleri analiz etmek veya oluşturmak, yaratıcılığı ve fikirleri teşvik etmek ve diğer günlük faaliyetler dahil olmak üzere çok çeşitli görevler için kullanabilirsiniz. ChatGPT; metin, görüntü, ses ve video dahil büyük miktarda bilgiden örüntüler öğrenerek kullanıcı sorularını ve talimatlarını anlamak ve yanıtlamak üzere tasarlanmıştır.

Eğitim sırasında model, kelimelerin bağlam içinde genellikle nasıl birlikte göründüğü gibi bu verilerdeki ilişkileri analiz eder ve bir yanıt oluştururken her seferinde bir kelime olacak şekilde sıradaki en olası kelimeyi tahmin etmek için bu anlayışı kullanır. Metin, bazen “tokenlar” olarak adlandırılan ve tam kelimeleri, kelime parçalarını veya noktalama işaretlerini temsil edebilen daha küçük birimlere dönüştürülebilir. Tokenlar, modelin işlediği metnin yapı taşlarıdır. Benzer şekilde, görüntü gibi başka içerik biçimleri oluşturan modeller de eğitim verilerinde piksellerin birbirleriyle ve ilişkili açıklama metinleriyle nasıl bağlantılı olduğuna dair örüntüleri öğrenir.

Örneğin, modelin öğrenme süreci (“eğitim” olarak bilinir) sırasında modelden “Sola dönmek yerine ___ döndü.” gibi bir cümleyi tamamlaması istenebilir. Eğitimin başlarında yanıtları büyük ölçüde rastgeledir. Ancak model büyük miktarda metni işleyip ondan öğrendikçe, örüntüleri tanımada ve sıradaki en olası kelimeyi tahmin etmede daha iyi hale gelir. Bu süreç, modelin anlayışını geliştirmek ve doğruluğunu artırmak için milyonlarca cümlede tekrarlanır.

Bir cümleyi tamamlamanın “Sola dönmek yerine sağa döndü”, “etrafına döndü” veya “geri döndü” gibi birden fazla makul yolu olduğundan, modelin nasıl yanıt verdiğinde doğası gereği bir rastgelelik unsuru vardır. Sonuç olarak, aynı soru farklı sorgularda farklı yanıtlar üretebilir.

Makine öğrenimi modelleri, bu sayıları yorumlayan ve kullanan kodla birlikte “ağırlıklar” veya “parametreler” olarak bilinen büyük sayı kümelerinden oluşur. Bu modeller, üzerinde eğitildikleri verilerin kopyalarını saklamaz veya tutmaz. Bunun yerine, bir model öğrendikçe parametrelerinin değerleri, tespit ettiği örüntüleri yansıtacak şekilde küçük ölçüde ayarlanır. Önceki örnekte model, rastgele kelimeler tahmin etmekten daha doğru tahminler yapmaya geçti; bunu eğitim cümlelerini saklayarak değil, iç parametrelerini güncelleyerek yaptı. Model, eğitim sırasında işlediği cümlelerin, görüntülerin veya seslerin kopyalarını tutmaz. ChatGPT, eğitim verilerinden “kopyalayıp yapıştırmaz”; bu, kapsamlı bir çalışmanın ardından fikirler arasındaki ilişkileri anlayarak kavramları açıklayabilen, özgün materyalleri ezberlemeyen veya kelimesi kelimesine yeniden üretmeyen bir öğretmene benzer. Model, bir kullanıcı isteğine yanıt oluştururken yeni içerik tahmin etmek ve oluşturmak için öğrendiği bu ağırlıkları kullanır.

ChatGPT’yi eğitmek için ne tür bilgiler kullanılır?

Herkese açık internet içeriği söz konusu olduğunda, yalnızca internette ücretsiz ve açık şekilde erişilebilen bilgileri kullanırız. Buna herkese açık web sayfaları, herkese açık forumlar, herkese açık bloglar, herkese açık gönderiler ve internette herkese açık diğer içerikler dahil olabilir. Örneğin, herkese açık bir çevrimiçi tartışma forumuna katılırsanız veya herkese açık bir blog ya da başka bir gönderi paylaşırsanız, herkese açık şekilde erişilebilen bu içeriği model eğitimi amacıyla kullanabiliriz. Ancak eğitim sürecimizde kişisel bilgilerin işlenmesini azaltmak için adımlar atarız. Herkese açık internet içeriği toplarken, ödeme duvarı arkasında olduğu bilinen kaynaklardan veya dark web’den bilerek veri toplamayız. Ayrıca nefret söylemi, yetişkinlere yönelik içerik, kişisel bilgileri toplayıp bir araya getiren siteler ve spam gibi modellerimizin öğrenmesini istemediğimiz materyalleri kaldırmak için filtreler uygularız. Kalan bilgiler daha sonra modellerimizi eğitmek için kullanılır.

Web sitesi sahipleri, GPTBot’a izin vermemek için robots.txt gibi standart web kontrollerini kullanarak, sitelerindeki herkese açık içeriğe eğitimde kullanılmak üzere erişilip erişilemeyeceğini yönetebilir; GPTBot, modellerimizi eğitmeye yardımcı olmak için herkese açık içeriği tarayabilir. Web sitesi sahiplerinin, sitelerinin ve içeriklerinin yapay zeka sistemlerimizle nasıl etkileşime gireceğini yönetmelerine yardımcı olmak için rehberlik sağlıyoruz.

Modellerimizi eğitmeye ve iyileştirmeye yardımcı olmak için üçüncü taraf iş ortaklarından gelen bilgileri de kullanırız. Buna üçüncü taraflarla yaptığımız anlaşmalar yoluyla eriştiğimiz veri kümelerindeki bilgilerin yanı sıra, politikalarımız ve anlaşmalarımız kapsamında izin verildiği durumlarda insan eğitmenler ve araştırmacılar tarafından sağlanan veya oluşturulan bilgiler dahil olabilir. Bu, modellerimizin kalitesini, güvenliğini ve performansını iyileştirmeye yardımcı olur. Bu kaynaklar, veri kümesine bağlı olarak metin, görüntü, ses, video veya diğer veri türlerini içerebilir.

Bazı eğitim süreçlerinde giderek daha fazla sentetik veri de kullanıyoruz. Örneğin, sentetik promptlar, çok dilli örnekler veya diğer eğitim materyalleri oluşturmak için bilgileri ve modellerimizi kullanabiliriz. Sentetik veri, verinin seyrek veya dengesiz olduğu alanlarda eğitim verilerini desteklemek de dahil olmak üzere model performansını iyileştirmeye yardımcı olabilir ve model geliştirmede gizliliği artıran yaklaşımları da destekleyebilir.

ChatGPT’yi eğitmek için kişisel bilgiler kullanılıyor mu?

Çevrimiçi içeriğin önemli bir bölümü kişiler hakkındaki bilgilerden oluştuğu için eğitim verilerimiz tesadüfen kişisel bilgiler içerebilir. Ancak eğitim sürecimizde kişisel bilgilerin işlenmesini azaltmak için adımlar atarız.

Eğitim verilerini, kişilerin profillerini oluşturmak, onlarla iletişime geçmek veya onlara kişiselleştirilmiş reklamlar sunmak için değil; modelin tahmin, akıl yürütme ve problem çözme gibi yeteneklerini geliştirmek için kullanırız.

Bazı durumlarda modeller, adlar ve adresler gibi öğelerin dil içinde nasıl işlev gördüğünü anlamak veya kamuya mal olmuş kişileri ve tanınmış varlıkları tanımak için kişisel bilgilerden öğrenebilir. Bu, modelin daha doğru ve bağlama uygun yanıtlar üretmesine yardımcı olur.

Eğitim sırasında kişisel bilgiler nasıl korunur?

Eğitim sırasında kişisel bilgilerin işlenmesini sınırlamak için aktif adımlar atarız. Örneğin, büyük miktarda kişisel veri toplayıp bir araya getirdiği bilinen kaynakları hariç tutar, eğitim sürecinde kişisel bilgileri azaltmak için filtreleme uygular ve eğitim verilerinin tekrarlanması riskini azaltmak amacıyla yinelenen içeriği tespit edip kaldırmak için adımlar atarız. Ayrıca modellerimizi, kişiler hakkındaki özel veya hassas bilgilere yönelik isteklere yanıt vermekten kaçınacak şekilde eğitiriz.

Bilgileri ne kadar süreyle saklarız?

Eğitim verilerindeki bilgileri, modellerimizi geliştirmek ve iyileştirmek ve ilgili bilimsel araştırma amaçları dahil olmak üzere yalnızca bu makalede ve gizlilik politikamızda açıklanan amaçlar için makul ölçüde gerekli olduğu sürece saklarız. Saklama, gerekliliğin devam ettiğinden emin olmak için periyodik incelemeye tabidir ve bilginin türüne ve nasıl kullanıldığına göre değişir. Saklama süresini belirlerken bilgileri işleme amacımız, bilginin miktarı, niteliği ve hassasiyeti, yetkisiz kullanım veya açıklamadan doğabilecek olası zarar riski ve tabi olduğumuz yasal yükümlülükler gibi faktörleri dikkate alırız.

ChatGPT’nin geliştirilmesi gizlilik yasalarına nasıl uyar?

Eğitim bilgilerini hukuka uygun şekilde kullanırız. Temel modellerimiz; erişilebilirlik araçları, müşteri desteği, yazılım geliştirme, kişiselleştirilmiş eğitim ve bilimsel araştırma dahil olmak üzere çok çeşitli faydalı uygulamalara güç verir. Bu yetenekler, herkese açık bilgiler ve üçüncü taraf iş ortaklarından gelen bilgiler dahil olmak üzere büyük ölçekli eğitim verilerine dayanır. Bu makalede açıklandığı üzere, eğitim süreci boyunca kişisel bilgilerin işlenmesini azaltmaya ve riskleri hafifletmeye yönelik adımlar dahil olmak üzere korumalar uygularız. Eğitim bilgilerinde yer alan kişisel bilgileri toplamamızı ve kullanmamızı; GDPR gibi gizlilik yasaları kapsamındaki meşru menfaatlere dayandırırız. Buna, genel yapay zekanın herkese fayda sağlamasını güvence altına alma misyonumuz doğrultusunda, kullanıcılar ve daha geniş toplum için modellerimizi eğitmek ve iyileştirmek dahildir; daha ayrıntılı açıklama için gizlilik politikamıza bakın. Bu bilgileri yasal ve sorumlu şekilde topladığımızdan ve kullandığımızdan emin olmaya yardımcı olmak için bir veri koruma etki değerlendirmesi tamamladık.

Bilgiler ne zaman paylaşılabilir veya aktarılabilir?

Kişisel bilgileri “satmayız” ve eğitim verilerindeki kişisel bilgileri yalnızca gizlilik politikamızda açıklanan sınırlı durumlarda açıklarız. Örneğin, modellerimizin geliştirilmesini, test edilmesini ve iyileştirilmesini destekleyen bağlı kuruluşlar, tedarikçiler ve hizmet sağlayıcılarla bilgi paylaşabiliriz. Ayrıca, gizlilik politikamızda açıklandığı üzere, bir yasal yükümlülüğe uymak veya haklarımızı, emniyetimizi ve güvenliğimizi ve kullanıcılarımızın, çalışanlarımızın ya da kamunun haklarını, emniyetini ve güvenliğini korumak için böyle bir işlemin gerekli olduğuna iyi niyetle inandığımız durumlarda bilgileri açıklayabiliriz.

Altyapımız küresel olduğundan, eğitim verilerindeki kişisel bilgiler AEA, İsviçre veya Birleşik Krallık dışındaki ülkelerde (Amerika Birleşik Devletleri dahil) işlenebilir. Bunun gerçekleştiği durumlarda, gizlilik politikamızda açıklandığı üzere yeterlilik kararları veya standart sözleşme maddeleri gibi uygun korumalar uygularız.

Haklarınız ve bunları nasıl kullanabileceğiniz

İtiraz taleplerine ve benzer hak taleplerine yanıt veririz. Dili öğrenmenin bir sonucu olarak, ChatGPT yanıtları bazen kişisel bilgileri herkese açık internette birden çok kez görünen kişiler (örneğin kamuya mal olmuş kişiler) hakkında kişisel bilgiler içerebilir. Belirli yargı alanlarındaki kişiler, kişisel bilgilerinin modellerimiz tarafından işlenmesine itiraz edebilir veya Gizlilik Portalımız üzerinden diğer veri sahibi hak taleplerinde bulunabilir. Bu hakları privacy@openai.com adresine ulaşarak da kullanabilirsiniz.

Talebinizi değerlendirmemize ve yanıtlamamıza yardımcı olmak için lütfen talebinizin hangi kişisel bilgilerle ilgili olduğunu anlamamızı sağlayacak yeterli bilgi verin; örneğin adınız, ilgili URL’ler, model çıktılarından belirli örnekler veya sorunu belirlemeye yardımcı olan diğer ayrıntılar. Bazı durumlarda işlem yapmadan önce kimliğinizi doğrulamanızı veya bilginin sizinle ilgili olduğunu teyit etmenizi isteyebiliriz. Bu taleplerin nasıl gönderileceği, en iyi uygulamalar ve taleplerin nasıl incelendiği dahil daha fazla bilgi, ChatGPT’den kişisel verilerin kaldırılmasına ilişkin Yardım Merkezi makalemizde bulunabilir. Talepleri geçerli gizlilik yasalarına uygun olarak inceler ve geçerli yasal süreler içinde yanıtlarız.

Gizlilik yasaları uyarınca bazı hakların mutlak olmayabileceğini lütfen unutmayın. Örneğin, ilgili bilgileri doğrulayamadığımız, talebin OpenAI tarafından işlenen kişisel bilgilerle ilgili olmadığı, bir istisnanın geçerli olduğu veya bunu yapmak için başka bir hukuki nedenimizin bulunduğu durumlarda bir talebi yerine getiremeyebiliriz. Talepler vaka bazında değerlendirilir ve gizlilik haklarının ifade özgürlüğü ve kamu yararı gibi diğer önemli hususlarla dengelenmesini gerektirebilir.

Bununla birlikte, kişisel bilgilerin korunmasına öncelik vermeye çalışır ve yürürlükteki tüm gizlilik yasalarına uyarız. Bir konuyu yeterince ele almadığımızı düşünüyorsanız, yerel denetim makamınıza şikayette bulunma hakkınız vardır.

Web sitemizi, uygulamalarımızı ve hizmetlerimizi kullandığınızda sizden veya sizin hakkınızda topladığımız kişisel bilgilere ilişkin OpenAI uygulamaları hakkında daha fazla bilgi için lütfen gizlilik politikamıza bakın.

ChatGPT ve temel modellerimiz nasıl geliştiriliyor

ChatGPT nedir ve nasıl çalışır?

ChatGPT’yi eğitmek için ne tür bilgiler kullanılır?

ChatGPT’yi eğitmek için kişisel bilgiler kullanılıyor mu?

ChatGPT’nin geliştirilmesi gizlilik yasalarına nasıl uyar?

Bu makale yararlı oldu mu?