Güvenli genel yapay zekaya ulaşmanın bir yolu olarak sorumlu, yinelemeli geliştirme ve dağıtıma inanıyoruz. Bir modeli kamuya sunmadan önce kayda değer miktarda güvenlik ve hizalama testi ve azaltım çalışması yaparız; ayrıca ChatGPT ve GPT’ler gibi bireylere yönelik hizmetlerimizde görünen sorunlu içerikleri tespit etmeye yardımcı olmak için otomatik ve insan destekli sistemlerimiz de bulunur. Bu çabalardan bazılarını aşağıda özetliyoruz.

ChatGPT ve ImageGen

Zararlı olabilecek veya Kullanım Politikalarımızı ihlal edebilecek içerikleri (komutlar, tamamlamalar, yüklemeler) tespit etmek için /moderations API’mizin dahili bir sürümü gibi otomatik araçlar kullanırız. Sorunlu içerik tespit edersek genellikle ya içeriğinizin kullanım politikalarımızı ihlal edebileceği konusunda sizi uyarırız ya da modelin komutunuza yanıt vermesini engelleriz. Ayrıca sorunlu komutu veya tamamlamayı içeren sohbetin paylaşılmasını da engelleyebiliriz. Çok sınırlı sayıda durumda, ağır ihlal niteliğindeki davranışlar nedeniyle hesabınızı da yasaklayabiliriz.

ChatGPT’deki sorunlu içeriklerle ilgili insanlardan gelen bildirimleri de kabul ederiz. Bu bildirimleri incelemek için otomatik sistemlerin ve eğitimli uzmanlardan oluşan bir ekibin birleşimini kullanırız.

ChatGPT: Birisi sorunlu içerik barındırdığını düşündüğünüz bir sohbeti paylaşırsa bunu bize bildirebilirsiniz.

İçeriği doğrudan ChatGPT içinde nasıl bildireceğiniz hakkında daha fazla ayrıntı için bu makaleye bakın.

GPT’ler

Bir GPT’nin potansiyel olarak sorunlu olup olmadığını görmek için /moderation API’miz gibi otomatik araçlar da kullanırız. GPT ile ilişkili sorunlu içerik tespit edersek, dağıtılmasını engellemek gibi önlemler alırız. Oluşturucu, sorunlu içeriği kaldırmak için GPT’nin veya API’nin yapılandırmasını düzenleyebilir ya da ürün içi bir akış üzerinden karara itiraz edebilir. Çok sınırlı sayıda durumda, ağır ihlal niteliğindeki davranışlar nedeniyle oluşturucunun hesabını da yasaklayabiliriz.

Sorunlu GPT’lerle ilgili insanlardan gelen bildirimleri de kabul ederiz. Kullanım politikalarımızı ihlal ettiğini düşündüğünüz veya başka şekilde sorunlu içerik yansıtan bir GPT görürseniz bunu bize bildirebilirsiniz. Bu bildirimleri incelemek için otomatik sistemlerin ve eğitimli uzmanlardan oluşan bir ekibin birleşimini kullanırız.

Bireylere yönelik hizmetlerimizde sorunlu içeriği nasıl tespit ediyoruz

ChatGPT ve ImageGen

GPT’ler

Bu makale yararlı oldu mu?