Skip to main content

Jak rozwijany jest ChatGPT i nasze modele podstawowe

Dowiedz się więcej o tym, jak opracowujemy nasze modele i w jaki sposób stosujemy je w produktach takich jak ChatGPT

Updated over 3 months ago

Modele podstawowe OpenAI, w tym modele zasilające ChatGPT, są opracowywane przy użyciu trzech podstawowych źródeł informacji: (1) informacji, które są publicznie dostępne w Internecie, (2) informacji, do których mamy dostęp dzięki współpracy z osobami trzecimi, oraz (3) informacji, które dostarczają lub generują nasi użytkownicy, trenerzy i badacze.

Ten artykuł zawiera przegląd publicznie dostępnych informacji, których używamy, aby pomóc w opracowaniu tych modeli, oraz informacji na temat tego, w jaki sposób zbieramy i wykorzystujemy te informacje zgodnie z przepisami o ochronie prywatności. Aby dowiedzieć się, w jaki sposób zbieramy informacje od użytkowników naszych usług i jak je wykorzystujemy, w tym jak można zrezygnować z konwersacji w ChatGPT wykorzystywanych do uczenia naszych modeli, zapoznaj się z naszą Polityką prywatności i tym artykułem w centrum pomocy.

Czym jest ChatGPT i jak działa?

ChatGPT to usługa oparta na sztucznej inteligencji, do której możesz uzyskać dostęp przez Internet. Możesz używać ChatGPT do różnych zadań, takich jak porządkowanie lub podsumowywanie informacji, pomoc w tłumaczeniu, analiza lub generowanie obrazu, pobudzanie kreatywności i tworzenie nowych pomysłów oraz pomoc w codziennych zadaniach. ChatGPT został opracowany w sposób, który pozwala mu rozumieć i odpowiadać na pytania i instrukcje użytkownika. W tym celu analizuje ogromną ilość dostępnych informacji, takich jak teksty, obrazy, nagrania audio lub wideo, oraz uczy się na podstawie zależności między tymi informacjami. Model uczy się na przykład, jakie słowa występują w kontekście z innymi słowami, a następnie wykorzystuje to, czego się nauczył, aby przewidzieć następne najbardziej prawdopodobne słowo, które może pojawić się w odpowiedzi na żądanie użytkownika, a następnie każde kolejne słowo. Te modele mogą również uczyć się generowania innych form informacji, takich jak obrazy, poprzez uczenie się zależności między pikselami tworzącymi obrazy w danych szkoleniowych oraz ich opisami.

Na przykład podczas procesu uczenia się modelu (zwanego „szkoleniem”) możemy zlecić modelowi próbę dokończenia zdania: „zamiast skręcić w lewo, skręciła ___”. Przed szkoleniem model będzie odpowiadał losowymi słowami, ale w miarę czytania i uczenia się z wielu wierszy tekstu będzie coraz lepiej rozumiał ten typ zdania i będzie mógł dokładniej przewidzieć następne słowo. Następnie powtórzy ten proces dla bardzo dużej liczby zdań.

Ponieważ istnieje wiele słów, które mogą pojawić się w powyższym zdaniu (np. zamiast skręcić w lewo, skręciła „w prawo”, „zawróciła” lub „z powrotem”), istnieje element losowości w sposobie, w jaki model może odpowiedzieć, a w wielu przypadkach nasze modele odpowiedzą na to samo pytanie na różne sposoby.

Modele uczenia maszynowego składają się z dużych ciągów liczb zwanych „wagami” lub „parametrami” oraz kodu, który interpretuje i wykonuje te liczby. Modele nie zawierają ani nie przechowują kopii informacji, z których się uczą. Zamiast tego, gdy model się uczy, niektóre z liczb, które składają się na model, zmieniają się nieznacznie, aby odzwierciedlić to, czego model się nauczył. W powyższym przykładzie model przeanalizował informacje, które pomogły mu poprawić odpowiedzi i zamiast przewidywania losowych niepoprawnych słów, przewidzieć dokładniejsze słowa, , ale w samym modelu wydarzyło się faktycznie tylko to, że nieznacznie zmieniły się liczby. Model nie zachował ani nie skopiował przeanalizowanych zdań, obrazów czy dźwięków.

Jakiego rodzaju informacje są wykorzystywane do uczenia ChatGPT?

Jak wskazano powyżej, ChatGPT i nasze inne usługi są rozwijane z wykorzystaniem: (1) informacji, które są publicznie dostępne w Internecie, (2) informacji, do których mamy dostęp dzięki współpracy z osobami trzecimi, oraz (3) informacji, które dostarczają lub generują nasi użytkownicy, trenerzy i badacze. Niniejszy artykuł koncentruje się na pierwszym zestawie informacji: informacjach, które są publicznie dostępne w Internecie.

W przypadku tego zestawu informacji korzystamy wyłącznie z publicznie dostępnych informacji, które są swobodnie i otwarcie dostępne w Internecie — nie wyszukujemy na przykład informacji, o których wiemy, że znajdują się w systemach płatnego dostępu do dalszych materiałów (ang. „paywall”) lub pochodzą z ukrytej sieci (ang. „dark web”). Stosujemy filtry i usuwamy informacje, których nasze modele nie powinny się uczyć ani generować, takie jak mowa nienawiści, treści dla dorosłych, witryny gromadzące głównie dane osobowe i spam. Następnie wykorzystujemy te informacje do uczenia naszych modeli.

Jak wspomniano w poprzedniej sekcji, ChatGPT nie kopiuje ani nie przechowuje informacji szkoleniowych w bazie danych. Zamiast tego uczy się o zależnościach między słowami i pojęciami, co pomaga modelowi aktualizować liczby/wagi. Następnie model wykorzystuje te wagi do przewidywania i generowania nowych treści w odpowiedzi na żądanie użytkownika. Model nie “kopiuje” i nie “wkleja” informacji szkoleniowych — podobnie jak nauczyciel, który zdobył wiedzę dzięki długiej nauce i potrafi wyjaśnić różne kwestie, bo zna zależności między pojęciami, ale nie przechowuje kopii materiałów na dany temat w swojej głowie…

Czy dane osobowe są wykorzystywane do uczenia ChatGPT?

Znaczna część danych dostępnych w Internecie odnosi się do ludzi, więc nasze informacje szkoleniowe mogą incydentalnie zawierać dane osobowe. Nie wyszukujemy w sposób aktywny danych osobowych do szkolenia naszych modeli.

Wykorzystujemy informacje szkoleniowe wyłącznie w celu rozwijania inteligencji naszych modeli, na przykład zdolności do przewidywania, rozumowania i rozwiązywania problemów. Nie wykorzystujemy i nie będziemy wykorzystywać żadnych danych osobowych zawartych w informacjach szkoleniowych do tworzenia profili osób, kontaktowania się z nimi, reklamowania się im, próbowania sprzedania im czegokolwiek lub sprzedawania samych informacji.

Nasze modele mogą uczyć się na podstawie danych osobowych, aby zrozumieć, w jaki sposób słowa i sformułowania, takie jak imiona, nazwiska i adresy, pasują do języka i zdań, lub aby dowiedzieć się więcej o sławnych ludziach i osobach publicznych. Dzięki temu nasze modele mogą udzielać bardziej trafnych odpowiedzi.

Podejmujemy również kroki w celu ograniczenia przetwarzania danych osobowych podczas szkolenia naszych modeli. Na przykład usuwamy strony internetowe, które gromadzą duże ilości danych osobowych, i szkolimy nasze modele w taki sposób, aby odrzucały prośby o prywatne lub wrażliwe informacje dotyczące ludzi.

W jaki sposób rozwój ChatGPT spełnia wymogi przepisów dotyczących ochrony danych?

Wykorzystujemy informacje szkoleniowe zgodnie z prawem. Nasze podstawowe modele mają wiele zastosowań, które zapewniają znaczące korzyści i już teraz pomagają użytkownikom tworzyć treści, usprawniać obsługę klientów, rozwijać oprogramowanie, personalizować edukację, wspierać badania naukowe i wiele innych. Korzyści tych nie można osiągnąć bez dużej ilości informacji do szkolenia modeli. Ponadto wykorzystywanie przez nas informacji szkoleniowych nie ma na celu wywierania negatywnego wpływu na poszczególne osoby, a główne źródła tych informacji szkoleniowych są już publicznie dostępne. Z tych względów gromadzenie i wykorzystywanie danych osobowych zawartych w informacjach szkoleniowych opieramy na prawnie uzasadnionych interesach ustalanych na podstawie przepisów o ochronie prywatności, takich jak RODO, co wyjaśniamy bardziej szczegółowo w naszej Polityce prywatności. Przeprowadziliśmy również ocenę skutków dla ochrony danych, aby zapewnić, że gromadzimy i wykorzystujemy te informacje w sposób zgodny z prawem i odpowiedzialny.

Odpowiadamy na sprzeciwy i wnioski dotyczące podobnych praw. W wyniku nauki języka odpowiedzi ChatGPT mogą czasami zawierać dane osobowe, które wielokrotnie występują w przestrzeni publicznej Internetu (na przykład dane osobowe osób publicznych). Osoby fizyczne w niektórych jurysdykcjach mogą sprzeciwić się przetwarzaniu ich danych osobowych przez nasze modele lub zgłaszać inne wnioski dotyczące praw osób, których dane dotyczą, za pośrednictwem Centrum Prywatności. Z praw tych można również skorzystać wysyłając wiadomość na adres dsar@openai.com.

Należy pamiętać, że zgodnie z przepisami o ochronie prywatności niektóre prawa mogą nie mieć charakteru bezwzględnego. Możemy odrzucić wniosek, jeśli mamy ku temu podstawę prawną. Staramy się jednak traktować priorytetowo ochronę danych osobowych i przestrzegać wszystkich obowiązujących przepisów o ochronie prywatności. Jeśli uważasz, że nie zajęliśmy się odpowiednio daną kwestią, masz prawo złożyć skargę do lokalnego organu nadzorczego.

Aby uzyskać więcej informacji na temat praktyk OpenAI w odniesieniu do danych osobowych, które zbieramy od Ciebie lub na Twój temat, gdy korzystasz z naszej strony internetowej, aplikacji i usług, zapoznaj się z naszą j Polityką prywatności.

Did this answer your question?