Uwaga: na przechowywanie danych w niektórych usługach mogą wpływać niedawne wydarzenia prawne — więcej informacji można znaleźć w naszym wpisie na blogu.
Modele bazowe OpenAI, w tym modele napędzające ChatGPT, są opracowywane przy użyciu trzech głównych źródeł informacji: (1) informacji publicznie dostępnych w internecie, (2) informacji, do których uzyskujemy dostęp we współpracy z podmiotami zewnętrznymi, oraz (3) informacji dostarczanych lub generowanych przez naszych użytkowników, trenerów-ludzi i badaczy.
Ten artykuł zawiera omówienie publicznie dostępnych informacji, których używamy, aby pomagać w opracowywaniu tych modeli, oraz tego, jak zbieramy i wykorzystujemy te informacje zgodnie z przepisami o ochronie prywatności. Aby zrozumieć, jak zbieramy i wykorzystujemy informacje od użytkowników naszych usług, w tym jak zrezygnować z wykorzystywania rozmów z ChatGPT do pomocy w uczeniu naszych modeli, zapoznaj się z naszymi Zasadami prywatności oraz tym artykułem w centrum pomocy.
Czym jest ChatGPT i jak działa?
ChatGPT to usługa oparta na sztucznej inteligencji, do której można uzyskać dostęp przez internet. ChatGPT można wykorzystywać do wielu zadań, w tym organizowania i podsumowywania informacji, pomocy w tłumaczeniach, analizowania lub generowania obrazów, inspirowania kreatywności i pomysłów oraz innych codziennych czynności. ChatGPT został zaprojektowany tak, aby rozumieć pytania i instrukcje użytkowników oraz odpowiadać na nie, ucząc się wzorców z dużych ilości informacji, w tym tekstu, obrazów, dźwięku i wideo. Podczas szkolenia model analizuje zależności w tych danych — na przykład to, jak słowa zwykle występują razem w kontekście — i wykorzystuje to zrozumienie, aby przewidywać kolejne najbardziej prawdopodobne słowo podczas generowania odpowiedzi, po jednym słowie naraz. Podobnie modele generujące inne formy treści, takie jak obrazy, uczą się wzorców dotyczących tego, jak piksele odnoszą się do siebie nawzajem oraz do powiązanych podpisów w danych szkoleniowych.
Na przykład podczas procesu uczenia się modelu (znanego jako „szkolenie”) model może otrzymać zadanie dokończenia zdania takiego jak: „Zamiast skręcić w lewo, skręciła ___”. Na wczesnym etapie szkolenia jego odpowiedzi są w dużej mierze losowe. Jednak w miarę jak model przetwarza duże ilości tekstu i uczy się na ich podstawie, coraz lepiej rozpoznaje wzorce i przewiduje najbardziej prawdopodobne kolejne słowo. Proces ten jest powtarzany na milionach zdań, aby udoskonalić rozumienie modelu i poprawić jego dokładność.
Ponieważ istnieje wiele prawdopodobnych sposobów dokończenia zdania — takich jak „Zamiast skręcić w lewo, skręciła w prawo”, „zawróciła” lub „cofnęła się” — w sposobie, w jaki model odpowiada, występuje nieodłączny element losowości. W rezultacie to samo pytanie może prowadzić do różnych odpowiedzi w różnych zapytaniach.
Modele uczenia maszynowego składają się z dużych zestawów liczb, zwanych „wagami” lub „parametrami”, oraz kodu, który interpretuje i wykorzystuje te liczby. Modele te nie przechowują ani nie zachowują kopii danych, na których są szkolone. Zamiast tego, gdy model się uczy, wartości jego parametrów są nieznacznie dostosowywane, aby odzwierciedlać wzorce, które zidentyfikował. We wcześniejszym przykładzie model przeszedł od przewidywania losowych słów do trafniejszych przewidywań — nie poprzez przechowywanie zdań szkoleniowych, lecz poprzez aktualizowanie swoich wewnętrznych parametrów. Model nie zachowuje kopii zdań, obrazów ani dźwięku, które przetwarza podczas szkolenia. ChatGPT nie „kopiuje i wkleja” ze swoich danych szkoleniowych — podobnie jak nauczyciel, który po szeroko zakrojonej nauce potrafi wyjaśniać pojęcia dzięki zrozumieniu relacji między ideami, bez zapamiętywania lub odtwarzania oryginalnych materiałów słowo w słowo. Podczas generowania odpowiedzi na żądanie użytkownika model wykorzystuje te wyuczone wagi do przewidywania i tworzenia nowych treści.
Jakiego rodzaju informacje publiczne są wykorzystywane do uczenia ChatGPT?
W przypadku publicznie dostępnych treści internetowych używamy wyłącznie informacji, które są swobodnie i otwarcie dostępne w internecie. Nie zbieramy celowo danych ze źródeł, o których wiadomo, że znajdują się za paywallami, ani z dark webu. Ponadto stosujemy filtry, aby usuwać materiały, z których nie chcemy, by nasze modele się uczyły, takie jak mowa nienawiści, treści dla dorosłych, strony agregujące dane osobowe oraz spam. Pozostałe informacje są następnie wykorzystywane do szkolenia naszych modeli.
Czy dane osobowe są wykorzystywane do uczenia ChatGPT?
Znaczna część treści online obejmuje informacje o ludziach, dlatego nasze dane szkoleniowe mogą przypadkowo zawierać dane osobowe. Nie zbieramy jednak celowo danych osobowych w celu szkolenia naszych modeli.
Używamy danych szkoleniowych do rozwijania możliwości modelu — takich jak przewidywanie, rozumowanie i rozwiązywanie problemów — a nie do tworzenia profili użytkowników, kontaktowania się z osobami ani jako części naszych działań reklamowych lub marketingowych.
W niektórych przypadkach modele mogą uczyć się z danych osobowych, aby rozumieć, jak elementy takie jak imiona i nazwiska oraz adresy funkcjonują w języku, lub aby rozpoznawać osoby publiczne i znane podmioty. Pomaga to modelowi generować dokładniejsze i bardziej odpowiednie kontekstowo odpowiedzi.
Podejmujemy aktywne działania, aby ograniczać przetwarzanie danych osobowych podczas szkolenia. Na przykład wykluczamy źródła agregujące duże ilości danych osobowych i szkolimy nasze modele tak, aby unikały odpowiadania na żądania dotyczące prywatnych lub wrażliwych informacji o osobach.
W jaki sposób rozwój ChatGPT jest zgodny z przepisami o ochronie prywatności?
Wykorzystujemy informacje szkoleniowe zgodnie z prawem. Nasze modele bazowe napędzają szeroki zakres korzystnych zastosowań — od tworzenia treści i obsługi klienta po rozwój oprogramowania, spersonalizowaną edukację i badania naukowe. Te możliwości zależą od danych szkoleniowych na wielką skalę. Informacje używane do szkolenia naszych modeli są publicznie dostępne i nie mają na celu wyrządzania szkody osobom fizycznym. Zbieranie i wykorzystywanie danych osobowych zawartych w informacjach szkoleniowych opieramy na uzasadnionych interesach zgodnie z przepisami o ochronie prywatności, takimi jak RODO, co wyjaśniamy bardziej szczegółowo w naszych Zasadach prywatności. Przeprowadziliśmy ocenę skutków dla ochrony danych, aby pomóc zapewnić, że zbieramy i wykorzystujemy te informacje zgodnie z prawem i w sposób odpowiedzialny.
Odpowiadamy na wnioski o sprzeciw i podobne żądania dotyczące praw. W wyniku uczenia się języka odpowiedzi ChatGPT mogą czasami zawierać dane osobowe dotyczące osób, których dane osobowe pojawiają się wielokrotnie w publicznym internecie (na przykład osób publicznych). Osoby w określonych jurysdykcjach mogą sprzeciwić się przetwarzaniu swoich danych osobowych przez nasze modele lub składać inne wnioski dotyczące praw osób, których dane dotyczą, za pośrednictwem naszego Portalu ochrony prywatności. Możesz również skorzystać z tych praw, kontaktując się z nami pod adresem dsar@openai.com.
Pamiętaj, że zgodnie z przepisami o ochronie prywatności niektóre prawa mogą nie mieć charakteru bezwzględnego. Możemy odrzucić wniosek, jeśli mamy ku temu zgodny z prawem powód. Staramy się jednak priorytetowo traktować ochronę danych osobowych i przestrzegać wszystkich obowiązujących przepisów o ochronie prywatności. Jeśli uważasz, że nie rozwiązaliśmy problemu w wystarczającym stopniu, masz prawo złożyć skargę do lokalnego organu nadzorczego.
Więcej informacji o praktykach OpenAI dotyczących danych osobowych, które zbieramy od Ciebie lub o Tobie, gdy korzystasz z naszej witryny, aplikacji i usług, znajdziesz w naszych Zasadach prywatności.
