Dowiedz się więcej o tym, jak rozwijamy nasze modele i wykorzystujemy je w produktach takich jak ChatGPT

Modele bazowe OpenAI, w tym modele zasilające ChatGPT, są opracowywane z wykorzystaniem trzech głównych źródeł informacji: (1) informacji publicznie dostępnych w internecie, (2) informacji, do których uzyskujemy dostęp we współpracy z podmiotami zewnętrznymi, oraz (3) informacji dostarczanych lub generowanych przez naszych użytkowników, trenerów i badaczy.

Opracowywanie modeli bazowych, takich jak te używane w ChatGPT, obejmuje kilka etapów, w tym przygotowanie danych szkoleniowych, szkolenie wstępne i szkolenie końcowe, a także bieżącą ocenę i doskonalenie po wdrożeniu. Na tych etapach różne rodzaje informacji mogą być wykorzystywane do różnych celów, w tym do poprawy wydajności, niezawodności i bezpieczeństwa modelu.

Ten artykuł przedstawia ogólny opis informacji, których używamy, aby pomagać w opracowywaniu tych modeli, sposobu, w jaki zbieramy i wykorzystujemy te informacje zgodnie z przepisami o prywatności, oraz zabezpieczeń stosowanych przez nas w całym procesie szkolenia. Aby dowiedzieć się, jak zbieramy i wykorzystujemy informacje od użytkowników naszych usług, w tym jak zrezygnować z wykorzystywania rozmów z ChatGPT do ulepszania naszych modeli, zapoznaj się z naszymi zasadami prywatności oraz tym artykułem w centrum pomocy.

Czym jest ChatGPT i jak działa?

ChatGPT to usługa oparta na sztucznej inteligencji, z której można korzystać przez internet lub aplikację. ChatGPT można używać do wielu zadań, w tym do porządkowania i podsumowywania informacji, pomocy w tłumaczeniach, wsparcia w kodowaniu, badaniach i analizie, wykonywania wieloetapowych zadań z użyciem różnych narzędzi, analizowania lub generowania obrazów, inspirowania kreatywności i pomysłów oraz innych codziennych czynności. ChatGPT zaprojektowano tak, aby rozumiał pytania i instrukcje użytkowników oraz odpowiadał na nie, ucząc się wzorców na podstawie dużych ilości informacji, w tym tekstu, obrazów, dźwięku i wideo.

Podczas szkolenia model analizuje zależności w tych danych — na przykład to, jak słowa zwykle występują razem w kontekście — i wykorzystuje to zrozumienie, aby podczas generowania odpowiedzi przewidywać kolejne najbardziej prawdopodobne słowo, krok po kroku. Tekst może być przekształcany w mniejsze jednostki, nazywane czasem „tokenami”, które mogą reprezentować całe słowa, części słów lub znaki interpunkcyjne. Tokeny są elementami składowymi tekstu przetwarzanymi przez model. Podobnie modele generujące inne formy treści, takie jak obrazy, uczą się wzorców w tym, jak piksele są powiązane ze sobą nawzajem oraz z odpowiadającymi im podpisami w danych szkoleniowych.

Na przykład podczas procesu uczenia się modelu (nazywanego „szkoleniem”) model może otrzymać zadanie uzupełnienia zdania: „Zamiast skręcić w lewo, skręciła ___”. Na początku szkolenia jego odpowiedzi są w dużej mierze losowe. Jednak w miarę jak model przetwarza i uczy się z dużych ilości tekstu, coraz lepiej rozpoznaje wzorce i przewiduje najbardziej prawdopodobne kolejne słowo. Proces ten jest powtarzany na milionach zdań, aby udoskonalać zrozumienie modelu i poprawiać jego dokładność.

Ponieważ zdanie można uzupełnić na wiele wiarygodnych sposobów — na przykład „Zamiast skręcić w lewo, skręciła w prawo”, „zawróciła” albo „cofnęła się” — sposób odpowiedzi modelu zawiera nieodłączny element losowości. W rezultacie to samo pytanie może prowadzić do różnych odpowiedzi w różnych zapytaniach.

Modele uczenia maszynowego składają się z dużych zbiorów liczb, nazywanych „wagami” lub „parametrami”, oraz kodu, który interpretuje i wykorzystuje te liczby. Modele te nie przechowują ani nie zachowują kopii danych, na których są szkolone. Zamiast tego, gdy model się uczy, wartości jego parametrów są nieznacznie korygowane, aby odzwierciedlać zidentyfikowane wzorce. W przytoczonym wcześniej przykładzie model przeszedł od przewidywania losowych słów do dokładniejszych przewidywań — nie dzięki przechowywaniu zdań szkoleniowych, lecz dzięki aktualizacji swoich wewnętrznych parametrów. Model nie zachowuje kopii zdań, obrazów ani dźwięków, które przetwarza podczas szkolenia. ChatGPT nie „kopiuje i wkleja” ze swoich danych szkoleniowych — podobnie jak nauczyciel, który po gruntownej nauce potrafi wyjaśniać pojęcia dzięki zrozumieniu zależności między ideami, bez zapamiętywania ani odtwarzania oryginalnych materiałów słowo w słowo. Podczas generowania odpowiedzi na prośbę użytkownika model wykorzystuje te wyuczone wagi, aby przewidywać i tworzyć nowe treści.

Jakiego rodzaju informacje są używane do uczenia ChatGPT?

W przypadku publicznie dostępnych treści internetowych używamy wyłącznie informacji, które są swobodnie i otwarcie dostępne w internecie. Może to obejmować publicznie dostępne strony internetowe, fora publiczne, publiczne blogi, publiczne wpisy i inne publicznie dostępne treści online. Na przykład jeśli uczestniczysz w publicznie dostępnym forum dyskusyjnym online albo publikujesz publiczny blog lub inny wpis, możemy wykorzystać te publicznie dostępne treści do celów szkolenia modelu. Podejmujemy jednak działania, aby ograniczać przetwarzanie informacji osobowych w naszym procesie szkolenia. Zbierając publicznie dostępne treści internetowe, nie gromadzimy celowo danych ze źródeł, o których wiadomo, że znajdują się za paywallem, ani z dark webu. Ponadto stosujemy filtry, aby usuwać materiały, na których nie chcemy szkolić naszych modeli, takie jak mowa nienawiści, treści dla dorosłych, strony agregujące informacje osobowe oraz spam. Pozostałe informacje są następnie wykorzystywane do szkolenia naszych modeli.

Właściciele witryn mogą zarządzać tym, czy publicznie dostępne treści z ich stron mogą być udostępniane do wykorzystania w szkoleniu, korzystając ze standardowych mechanizmów kontroli sieci, takich jak robots.txt, aby zablokować GPTBot, który może indeksować publicznie dostępne treści w celu wspierania szkolenia naszych modeli. Udostępniamy wskazówki, które pomagają właścicielom witryn zarządzać sposobem interakcji ich stron i treści z naszymi systemami AI.

Korzystamy również z informacji od partnerów zewnętrznych, aby pomagać w szkoleniu i ulepszaniu naszych modeli. Może to obejmować informacje w zbiorach danych, do których uzyskujemy dostęp na podstawie umów z podmiotami zewnętrznymi, a także informacje dostarczane lub generowane przez trenerów i badaczy, gdy pozwalają na to nasze zasady i umowy. Pomaga to poprawiać jakość, bezpieczeństwo i wydajność naszych modeli. Źródła te mogą obejmować tekst, obrazy, dźwięk, wideo lub inne typy danych, zależnie od zbioru danych.

W niektórych procesach szkolenia coraz częściej wykorzystujemy także dane syntetyczne. Na przykład możemy używać informacji i naszych modeli do generowania syntetycznych poleceń, przykładów wielojęzycznych lub innych materiałów szkoleniowych. Dane syntetyczne mogą pomagać poprawiać wydajność modelu, między innymi przez uzupełnianie danych szkoleniowych w obszarach, w których dane są skąpe lub niezrównoważone, a także mogą wspierać podejścia do opracowywania modeli sprzyjające ochronie prywatności.

Czy informacje osobowe są używane do uczenia ChatGPT?

Znaczna część treści online dotyczy informacji o ludziach, dlatego nasze dane szkoleniowe mogą przypadkowo obejmować informacje osobowe. Podejmujemy jednak działania, aby ograniczać przetwarzanie informacji osobowych w naszym procesie szkolenia.

Używamy danych szkoleniowych do rozwijania możliwości modelu — takich jak przewidywanie, rozumowanie i rozwiązywanie problemów — a nie do tworzenia profili osób, kontaktowania się z nimi czy personalizowania dla nich reklam.

W niektórych przypadkach modele mogą uczyć się na podstawie informacji osobowych, aby rozumieć, jak elementy takie jak imiona, nazwiska i adresy funkcjonują w języku, albo aby rozpoznawać osoby publiczne i powszechnie znane podmioty. Pomaga to modelowi generować dokładniejsze i bardziej odpowiednie kontekstowo odpowiedzi.

Jak chroni się informacje osobowe podczas szkolenia?

Podejmujemy aktywne działania, aby ograniczać przetwarzanie informacji osobowych podczas szkolenia. Na przykład wykluczamy znane źródła agregujące duże ilości danych osobowych, stosujemy filtrowanie w celu ograniczenia informacji osobowych w procesie szkolenia oraz podejmujemy działania, aby identyfikować i usuwać zduplikowane treści, zmniejszając ryzyko powtarzania danych szkoleniowych. Ponadto szkolimy nasze modele tak, aby unikały odpowiadania na prośby o prywatne lub wrażliwe informacje dotyczące osób.

Jak długo przechowujemy informacje

Przechowujemy informacje w danych szkoleniowych tylko tak długo, jak jest to rozsądnie niezbędne do celów opisanych w tym artykule i w naszych zasadach prywatności, w tym do opracowywania i ulepszania naszych modeli oraz do powiązanych celów badań naukowych. Przechowywanie podlega okresowym przeglądom w celu potwierdzenia jego dalszej niezbędności i różni się w zależności od rodzaju informacji oraz sposobu ich wykorzystania. Określając okres przechowywania, bierzemy pod uwagę takie czynniki jak cel przetwarzania informacji, ilość, charakter i wrażliwość informacji, potencjalne ryzyko szkody wynikającej z nieuprawnionego użycia lub ujawnienia oraz wszelkie obowiązki prawne, którym podlegamy.

W jaki sposób rozwój ChatGPT jest zgodny z przepisami o prywatności?

Korzystamy z informacji szkoleniowych zgodnie z prawem. Nasze modele bazowe zasilają szeroki zakres użytecznych zastosowań — w tym narzędzia dostępności, obsługę klienta, tworzenie oprogramowania, spersonalizowaną edukację i badania naukowe. Możliwości te zależą od danych szkoleniowych na dużą skalę, w tym informacji publicznie dostępnych oraz informacji od partnerów zewnętrznych. Stosujemy zabezpieczenia w całym procesie szkolenia, w tym działania mające na celu ograniczenie przetwarzania informacji osobowych w procesie szkolenia oraz ograniczanie ryzyk, zgodnie z opisem w tym artykule. Zbieranie i wykorzystywanie informacji osobowych zawartych w informacjach szkoleniowych opieramy na prawnie uzasadnionych interesach przewidzianych w przepisach o prywatności, takich jak RODO, w tym na szkoleniu i ulepszaniu naszych modeli z korzyścią dla użytkowników i szerszego społeczeństwa, zgodnie z naszą misją zapewnienia, aby ogólna sztuczna inteligencja przynosiła korzyści wszystkim — co szerzej wyjaśniamy w naszych zasadach prywatności. Przeprowadziliśmy ocenę skutków dla ochrony danych, aby pomóc zapewnić, że zbieramy i wykorzystujemy te informacje zgodnie z prawem i w odpowiedzialny sposób.

Kiedy informacje mogą być udostępniane lub przekazywane

Nie „sprzedajemy” informacji osobowych i ujawniamy informacje osobowe w danych szkoleniowych wyłącznie w ograniczonych okolicznościach opisanych w naszych zasadach prywatności. Na przykład możemy udostępniać informacje podmiotom powiązanym, dostawcom i usługodawcom, którzy wspierają opracowywanie, testowanie i ulepszanie naszych modeli. Możemy również ujawnić informacje, działając w dobrej wierze, że jest to konieczne do wypełnienia obowiązku prawnego lub do ochrony naszych praw, bezpieczeństwa i zabezpieczeń, a także praw, bezpieczeństwa i zabezpieczeń naszych użytkowników, pracowników lub społeczeństwa, zgodnie z opisem w naszych zasadach prywatności.

Ponieważ nasza infrastruktura ma charakter globalny, informacje osobowe w danych szkoleniowych mogą być przetwarzane w krajach poza EOG, Szwajcarią lub Wielką Brytanią (w tym w Stanach Zjednoczonych). Gdy ma to miejsce, stosujemy odpowiednie zabezpieczenia, takie jak decyzje stwierdzające odpowiedni stopień ochrony lub standardowe klauzule umowne, zgodnie z opisem w naszych zasadach prywatności.

Twoje prawa i sposób ich wykonywania

Odpowiadamy na wnioski o sprzeciw i podobne wnioski dotyczące praw. W wyniku uczenia się języka odpowiedzi ChatGPT mogą czasem zawierać informacje osobowe o osobach, których informacje osobowe wielokrotnie pojawiają się w publicznym internecie (na przykład o osobach publicznych). Osoby w niektórych jurysdykcjach mogą sprzeciwić się przetwarzaniu swoich informacji osobowych przez nasze modele lub składać inne wnioski dotyczące praw osób, których dane dotyczą, za pośrednictwem naszego Portalu ochrony prywatności. Możesz również wykonać te prawa, kontaktując się pod adresem privacy@openai.com.

Aby pomóc nam ocenić Twój wniosek i odpowiedzieć na niego, podaj wystarczające informacje, abyśmy mogli zrozumieć, jakich informacji osobowych dotyczy wniosek, takie jak imię i nazwisko, odpowiednie adresy URL, konkretne przykłady wyników modelu lub inne szczegóły pomagające zidentyfikować problem. W niektórych przypadkach możemy poprosić Cię o potwierdzenie tożsamości lub potwierdzenie, że informacje dotyczą Ciebie, zanim będziemy mogli podjąć działania. Więcej informacji o tym, jak składać takie wnioski, w tym o najlepszych praktykach i sposobie ich rozpatrywania, znajdziesz w naszym artykule w Centrum pomocy dotyczącym usuwania danych osobowych z ChatGPT. Rozpatrujemy wnioski zgodnie z obowiązującymi przepisami o prywatności i odpowiadamy w obowiązujących terminach prawnych.

Pamiętaj, że zgodnie z przepisami o prywatności niektóre prawa mogą nie mieć charakteru bezwzględnego. Na przykład możemy nie być w stanie spełnić wniosku, gdy nie możemy zweryfikować odpowiednich informacji, gdy wniosek nie dotyczy informacji osobowych przetwarzanych przez OpenAI, gdy ma zastosowanie wyjątek lub gdy mamy ku temu inny zgodny z prawem powód. Wnioski są oceniane indywidualnie i mogą wymagać wyważenia praw do prywatności z innymi ważnymi względami, takimi jak wolność wypowiedzi i interes publiczny.

Staramy się jednak priorytetowo traktować ochronę informacji osobowych i przestrzegamy wszystkich obowiązujących przepisów o prywatności. Jeśli uważasz, że nie odnieśliśmy się do problemu w wystarczający sposób, masz prawo wnieść skargę do lokalnego organu nadzorczego.

Aby uzyskać więcej informacji o praktykach OpenAI dotyczących informacji osobowych, które zbieramy od Ciebie lub o Tobie, gdy korzystasz z naszej witryny, aplikacji i usług, zapoznaj się z naszymi zasadami prywatności.

Jak rozwijamy ChatGPT i nasze modele bazowe

Czym jest ChatGPT i jak działa?

Jakiego rodzaju informacje są używane do uczenia ChatGPT?

Czy informacje osobowe są używane do uczenia ChatGPT?

W jaki sposób rozwój ChatGPT jest zgodny z przepisami o prywatności?

Czy ten artykuł był pomocny?