OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

Jak rozwijamy ChatGPT i nasze modele bazowe

Dowiedz się więcej o tym, jak rozwijamy nasze modele i wykorzystujemy je w produktach takich jak ChatGPT

Zaktualizowano: 3 days ago
Uwaga
: ostatnie zmiany prawne mogą wpływać na przechowywanie danych w niektórych usługach – więcej informacji znajdziesz w naszym

wpisie na blogu
.

Modele podstawowe OpenAI, w tym modele obsługujące ChatGPT, są opracowywane z wykorzystaniem trzech głównych źródeł informacji: (1) informacji publicznie dostępnych w internecie, (2) informacji, do których uzyskujemy dostęp we współpracy z podmiotami trzecimi, oraz (3) informacji przekazywanych lub generowanych przez naszych użytkowników, trenerów i badaczy.

Ten artykuł zawiera omówienie publicznie dostępnych informacji, których używamy do rozwijania tych modeli, oraz tego, jak zbieramy i wykorzystujemy te informacje zgodnie z przepisami o ochronie prywatności. Aby dowiedzieć się, jak zbieramy i wykorzystujemy informacje od użytkowników naszych usług, w tym jak zrezygnować z wykorzystywania rozmów w ChatGPT do uczenia naszych modeli, zapoznaj się z naszymi zasadami prywatności oraz tym artykułem w centrum pomocy.

Czym jest ChatGPT i jak działa?

ChatGPT to usługa oparta na sztucznej inteligencji, z której można korzystać przez internet. Możesz używać ChatGPT do wielu różnych zadań, w tym organizowania i podsumowywania informacji, pomocy w tłumaczeniach, analizowania lub generowania obrazów, pobudzania kreatywności i pomysłów oraz innych codziennych czynności. ChatGPT zaprojektowano tak, aby rozumiał pytania i instrukcje użytkowników oraz odpowiadał na nie, ucząc się wzorców z dużych ilości informacji, w tym tekstu, obrazów, dźwięku i wideo. Podczas szkolenia model analizuje zależności w tych danych — na przykład to, jak słowa zwykle występują razem w kontekście — i wykorzystuje to zrozumienie do przewidywania najbardziej prawdopodobnego kolejnego słowa podczas generowania odpowiedzi, słowo po słowie. Podobnie modele generujące inne formy treści, takie jak obrazy, uczą się wzorców dotyczących tego, jak piksele wiążą się ze sobą nawzajem oraz z powiązanymi podpisami w danych szkoleniowych.

Na przykład podczas procesu uczenia się modelu (zwanego „szkoleniem”) model może otrzymać zadanie uzupełnienia zdania takiego jak: „Zamiast skręcić w lewo, skręciła ___”. Na wczesnym etapie szkolenia jego odpowiedzi są w dużej mierze losowe. Jednak gdy model przetwarza duże ilości tekstu i uczy się na ich podstawie, coraz lepiej rozpoznaje wzorce i przewiduje najbardziej prawdopodobne kolejne słowo. Proces ten jest powtarzany na milionach zdań, aby doskonalić zrozumienie modelu i poprawiać jego dokładność.

Ponieważ istnieje wiele prawdopodobnych sposobów uzupełnienia zdania — takich jak „Zamiast skręcić w lewo, skręciła w prawo”, „zawróciła” lub „wróciła” — w sposobie odpowiadania modelu występuje nieodłączny element losowości. W rezultacie to samo pytanie może prowadzić do różnych odpowiedzi w różnych zapytaniach.

Modele uczenia maszynowego składają się z dużych zbiorów liczb, nazywanych „wagami” lub „parametrami”, oraz kodu, który interpretuje i wykorzystuje te liczby. Modele te nie przechowują ani nie zachowują kopii danych, na których są szkolone. Zamiast tego, gdy model się uczy, wartości jego parametrów są nieznacznie dostosowywane, aby odzwierciedlać zidentyfikowane przez niego wzorce. We wcześniejszym przykładzie model poprawił się od przewidywania losowych słów do tworzenia dokładniejszych przewidywań — nie przez przechowywanie zdań szkoleniowych, lecz przez aktualizowanie swoich wewnętrznych parametrów. Model nie zachowuje kopii zdań, obrazów ani dźwięku, które przetwarza podczas szkolenia. ChatGPT nie „kopiuje i wkleja” ze swoich danych szkoleniowych — podobnie jak nauczyciel, który po szeroko zakrojonej nauce potrafi wyjaśniać pojęcia dzięki rozumieniu relacji między ideami, bez zapamiętywania ani odtwarzania oryginalnych materiałów słowo w słowo. Podczas generowania odpowiedzi na prośbę użytkownika model wykorzystuje te wyuczone wagi do przewidywania i tworzenia nowych treści.

Jakiego rodzaju informacje publiczne są używane do uczenia ChatGPT?

W przypadku publicznie dostępnych treści internetowych wykorzystujemy wyłącznie informacje, które są swobodnie i otwarcie dostępne w internecie. Nie gromadzimy celowo danych ze źródeł, o których wiadomo, że znajdują się za paywallami, ani z dark webu. Ponadto stosujemy filtry, aby usuwać materiały, na których nie chcemy szkolić naszych modeli, takie jak mowa nienawiści, treści dla dorosłych, witryny agregujące informacje osobowe i spam. Pozostałe informacje są następnie wykorzystywane do szkolenia naszych modeli.

Czy informacje osobowe są używane do uczenia ChatGPT?

Znaczna część treści online zawiera informacje o ludziach, dlatego nasze dane szkoleniowe mogą przypadkowo obejmować informacje osobowe. Nie zbieramy jednak celowo informacji osobowych w celu szkolenia naszych modeli.

Używamy danych szkoleniowych do rozwijania możliwości modelu — takich jak przewidywanie, rozumowanie i rozwiązywanie problemów — a nie do tworzenia profili użytkowników, kontaktowania się z osobami ani jako część naszych działań reklamowych lub marketingowych.

W niektórych przypadkach modele mogą uczyć się na podstawie informacji osobowych, aby rozumieć, jak elementy takie jak imiona i nazwiska oraz adresy funkcjonują w języku, lub aby rozpoznawać osoby publiczne i znane podmioty. Pomaga to modelowi generować dokładniejsze i bardziej odpowiednie kontekstowo odpowiedzi.

Podejmujemy aktywne działania, aby ograniczać przetwarzanie informacji osobowych podczas szkolenia. Na przykład wykluczamy źródła agregujące duże ilości danych osobowych i szkolimy nasze modele, aby unikały odpowiadania na prośby o prywatne lub wrażliwe informacje dotyczące osób.

W jaki sposób rozwój ChatGPT jest zgodny z przepisami o ochronie prywatności?

Korzystamy z informacji szkoleniowych zgodnie z prawem. Nasze modele podstawowe zasilają szeroki zakres korzystnych zastosowań — od tworzenia treści i obsługi klienta po rozwój oprogramowania, spersonalizowaną edukację i badania naukowe. Możliwości te zależą od danych szkoleniowych na wielką skalę. Informacje używane do szkolenia naszych modeli są publicznie dostępne i nie mają na celu wyrządzania szkody osobom. Zbieranie i wykorzystywanie informacji osobowych zawartych w informacjach szkoleniowych opieramy na uzasadnionych interesach wynikających z przepisów o ochronie prywatności, takich jak RODO, co wyjaśniamy bardziej szczegółowo w naszych zasadach prywatności. Przeprowadziliśmy ocenę skutków dla ochrony danych, aby pomóc zapewnić, że zbieramy i wykorzystujemy te informacje legalnie i odpowiedzialnie.

Odpowiadamy na sprzeciwy i podobne żądania dotyczące praw. W wyniku uczenia się języka odpowiedzi ChatGPT mogą czasem zawierać informacje osobowe o osobach, których informacje osobowe pojawiają się wielokrotnie w publicznym internecie (na przykład o osobach publicznych). Osoby w niektórych jurysdykcjach mogą sprzeciwić się przetwarzaniu ich informacji osobowych przez nasze modele lub składać inne żądania dotyczące praw osób, których dane dotyczą, za pośrednictwem naszego Portalu ochrony prywatności. Możesz również skorzystać z tych praw, kontaktując się z nami pod adresem dsar@openai.com.

Pamiętaj, że zgodnie z przepisami o ochronie prywatności niektóre prawa mogą nie mieć charakteru bezwzględnego. Możemy odrzucić żądanie, jeśli mamy ku temu zgodny z prawem powód. Staramy się jednak priorytetowo traktować ochronę informacji osobowych i przestrzegać wszystkich obowiązujących przepisów o ochronie prywatności. Jeśli uważasz, że nie zajęliśmy się daną kwestią w wystarczającym stopniu, masz prawo złożyć skargę do lokalnego organu nadzorczego.

Więcej informacji o praktykach OpenAI dotyczących informacji osobowych, które zbieramy od Ciebie lub o Tobie, gdy korzystasz z naszej witryny, aplikacji i usług, znajdziesz w naszych zasadach prywatności.

Czy ten artykuł był pomocny?