Saznajte više o tome kako razvijamo svoje modele i primjenjujemo ih u proizvodima poput ChatGPT-a

OpenAI-jevi temeljni modeli, uključujući modele koji pokreću ChatGPT, razvijaju se uz tri primarna izvora informacija: (1) informacije koje su javno dostupne na internetu, (2) informacije kojima pristupamo u suradnji s trećim stranama i (3) informacije koje pružaju ili generiraju naši korisnici, ljudski treneri i istraživači.

Razvoj temeljnih modela poput onih koji se upotrebljavaju u ChatGPT-u obuhvaća nekoliko faza, uključujući pripremu podataka za treniranje, predtreniranje i naknadno treniranje, kao i kontinuiranu evaluaciju i poboljšavanje nakon uvođenja. U tim se fazama mogu upotrebljavati različite vrste informacija za razne svrhe, uključujući poboljšanje performansi, pouzdanosti i sigurnosti modela.

Ovaj članak daje pregled informacija koje upotrebljavamo za razvoj tih modela, načina na koji te informacije prikupljamo i upotrebljavamo u skladu sa zakonima o privatnosti te zaštitnih mjera koje primjenjujemo tijekom cijelog procesa treniranja. Da biste razumjeli kako prikupljamo i upotrebljavamo informacije korisnika naših usluga, uključujući kako isključiti upotrebu razgovora u ChatGPT-u za poboljšanje naših modela, pogledajte naš Pravilnik o zaštiti privatnosti i ovaj članak centra za pomoć.

Što je ChatGPT i kako funkcionira?

ChatGPT je usluga temeljena na umjetnoj inteligenciji kojoj možete pristupiti putem interneta ili aplikacije. ChatGPT možete upotrebljavati za širok raspon zadataka, uključujući organiziranje i sažimanje informacija, pomoć pri prevođenju, podršku pri programiranju, istraživanju i analizi, dovršavanje višekoračnih zadataka u različitim alatima, analizu ili generiranje slika, poticanje kreativnosti i ideja te druge svakodnevne aktivnosti. ChatGPT je osmišljen tako da razumije pitanja i upute korisnika te na njih odgovara učenjem obrazaca iz velikih količina informacija, uključujući tekst, slike, zvuk i videozapise.

Tijekom treniranja model analizira odnose unutar tih podataka — primjerice kako se riječi obično pojavljuju zajedno u kontekstu — i to razumijevanje upotrebljava za predviđanje sljedeće najvjerojatnije riječi pri generiranju odgovora, riječ po riječ. Tekst se može pretvoriti u manje jedinice, koje se ponekad nazivaju „tokeni”, a mogu predstavljati cijele riječi, dijelove riječi ili interpunkciju. Tokeni su gradivni elementi teksta koje model obrađuje. Slično tome, modeli koji generiraju druge oblike sadržaja, poput slika, uče obrasce u odnosima između piksela te između piksela i povezanih opisa u podacima za treniranje.

Na primjer, tijekom procesa učenja modela (poznatog kao „treniranje”), model može dobiti zadatak dovršiti rečenicu poput: „Umjesto da skrene lijevo, skrenula je ___.” Na početku treniranja njegovi su odgovori uglavnom nasumični. Međutim, kako model obrađuje i uči iz velike količine teksta, postaje sve bolji u prepoznavanju obrazaca i predviđanju najvjerojatnije sljedeće riječi. Taj se proces ponavlja na milijunima rečenica kako bi se izoštrilo njegovo razumijevanje i poboljšala točnost.

Budući da postoji više uvjerljivih načina dovršavanja rečenice — primjerice „Umjesto da skrene lijevo, skrenula je desno”, „okrenula se” ili „vratila se” — u načinu na koji model odgovara postoji inherentan element nasumičnosti. Zbog toga isto pitanje u različitim upitima može dati različite odgovore.

Modeli strojnog učenja sastoje se od velikih skupova brojeva, poznatih kao „težine” ili „parametri”, zajedno s kodom koji te brojeve tumači i upotrebljava. Ti modeli ne pohranjuju niti zadržavaju kopije podataka na kojima se treniraju. Umjesto toga, kako model uči, vrijednosti njegovih parametara blago se prilagođavaju kako bi odražavale obrasce koje je prepoznao. U ranijem primjeru model se poboljšao od predviđanja nasumičnih riječi do davanja točnijih predviđanja — ne pohranjivanjem rečenica za treniranje, nego ažuriranjem svojih unutarnjih parametara. Model ne zadržava kopije rečenica, slika ili zvuka koje obrađuje tijekom treniranja. ChatGPT ne „kopira i lijepi” iz svojih podataka za treniranje — slično kao što učitelj, nakon opsežnog učenja, može objasniti pojmove razumijevanjem odnosa između ideja, bez pamćenja ili doslovnog reproduciranja izvornih materijala. Kada generira odgovor na korisnički zahtjev, model upotrebljava te naučene težine kako bi predvidio i stvorio novi sadržaj.

Koja se vrsta informacija upotrebljava za podučavanje ChatGPT-a?

Kad je riječ o javno dostupnom internetskom sadržaju, upotrebljavamo samo informacije koje su slobodno i otvoreno dostupne na internetu. To može uključivati javno dostupne web-stranice, javne forume, javne blogove, javne objave i drugi javno dostupan mrežni sadržaj. Na primjer, ako sudjelujete u javno dostupnom internetskom forumu za raspravu ili objavite javni blog ili drugu objavu, taj javno dostupan sadržaj možemo upotrebljavati u svrhe treniranja modela. Međutim, poduzimamo korake kako bismo smanjili obradu osobnih podataka u našem procesu treniranja. Pri prikupljanju javno dostupnog internetskog sadržaja ne prikupljamo namjerno podatke iz izvora za koje je poznato da su iza naplatnih zidova ni s dark weba. Osim toga, primjenjujemo filtre za uklanjanje materijala za koji ne želimo da naši modeli iz njega uče, poput govora mržnje, sadržaja za odrasle, web-mjesta koja agregiraju osobne podatke i neželjene pošte. Preostale informacije zatim se upotrebljavaju za treniranje naših modela.

Vlasnici web-mjesta mogu upravljati time smije li se javno dostupnom sadržaju s njihovih web-mjesta pristupati za upotrebu u treniranju tako da standardnim web-kontrolama, kao što je robots.txt, zabrane GPTBotu indeksiranje javno dostupnog sadržaja koji može služiti za treniranje naših modela. Pružamo smjernice kako bismo vlasnicima web-mjesta pomogli upravljati načinom na koji njihova web-mjesta i sadržaj stupaju u interakciju s našim AI sustavima.

Za treniranje i poboljšavanje naših modela upotrebljavamo i informacije partnera trećih strana. To može uključivati informacije u skupovima podataka kojima pristupamo putem ugovora s trećim stranama, kao i informacije koje pružaju ili generiraju ljudski treneri i istraživači kada je to dopušteno našim pravilima i ugovorima. To pomaže poboljšati kvalitetu, sigurnost i performanse naših modela. Ti izvori mogu uključivati tekst, slike, zvuk, videozapise ili druge vrste podataka, ovisno o skupu podataka.

U nekim procesima treniranja sve više upotrebljavamo i sintetičke podatke. Na primjer, možemo upotrebljavati informacije i naše modele za generiranje sintetičkih upita, višejezičnih primjera ili drugih materijala za treniranje. Sintetički podaci mogu pomoći poboljšati performanse modela, među ostalim nadopunjavanjem podataka za treniranje u područjima u kojima su podaci oskudni ili neuravnoteženi, a mogu podržati i pristupe razvoju modela koji bolje štite privatnost.

Upotrebljavaju li se osobni podaci za podučavanje ChatGPT-a?

Značajan dio mrežnog sadržaja uključuje informacije o ljudima, pa naši podaci za treniranje mogu slučajno sadržavati osobne podatke. Međutim, poduzimamo korake kako bismo smanjili obradu osobnih podataka u našem procesu treniranja.

Podatke za treniranje upotrebljavamo za razvoj sposobnosti modela — poput predviđanja, rasuđivanja i rješavanja problema — a ne za izradu profila pojedinaca, kontaktiranje s njima ili personalizaciju oglasa za njih.

U nekim slučajevima modeli mogu učiti iz osobnih podataka kako bi razumjeli kako elementi poput imena i adresa funkcioniraju u jeziku ili kako bi prepoznali javne osobe i poznate subjekte. To pomaže modelu generirati točnije i kontekstualno prikladnije odgovore.

Kako se osobni podaci štite tijekom treniranja?

Poduzimamo aktivne korake kako bismo ograničili obradu osobnih podataka tijekom treniranja. Na primjer, isključujemo poznate izvore koji agregiraju velike količine osobnih podataka, primjenjujemo filtriranje radi smanjenja osobnih podataka u procesu treniranja te poduzimamo korake za prepoznavanje i uklanjanje dupliciranog sadržaja kako bismo smanjili rizik od ponavljanja podataka za treniranje. Osim toga, treniramo naše modele da izbjegavaju odgovarati na zahtjeve za privatnim ili osjetljivim informacijama o pojedincima.

Koliko dugo zadržavamo informacije

Informacije u podacima za treniranje zadržavamo samo onoliko dugo koliko je razumno potrebno za svrhe opisane u ovom članku i našem Pravilniku o zaštiti privatnosti, uključujući razvoj i poboljšavanje naših modela te povezane svrhe znanstvenog istraživanja. Zadržavanje podliježe periodičnoj provjeri kako bi se osigurala stalna nužnost, a razlikuje se ovisno o vrsti informacija i načinu njihove upotrebe. Pri određivanju razdoblja zadržavanja uzimamo u obzir čimbenike kao što su naša svrha obrade informacija, količina, priroda i osjetljivost informacija, mogući rizik od štete zbog neovlaštene upotrebe ili otkrivanja te sve zakonske obveze kojima podliježemo.

Kako je razvoj ChatGPT-a usklađen sa zakonima o privatnosti?

Informacije za treniranje upotrebljavamo zakonito. Naši temeljni modeli pokreću širok raspon korisnih primjena — uključujući alate za pristupačnost, korisničku podršku, razvoj softvera, personalizirano obrazovanje i znanstvena istraživanja. Te sposobnosti ovise o podacima za treniranje velikih razmjera, uključujući javno dostupne informacije i informacije partnera trećih strana. Tijekom cijelog procesa treniranja primjenjujemo zaštitne mjere, uključujući korake osmišljene za smanjenje obrade osobnih podataka u procesu treniranja i ublažavanje rizika, kako je opisano u ovom članku. Prikupljanje i upotrebu osobnih podataka uključenih u informacije za treniranje temeljimo na legitimnim interesima prema zakonima o privatnosti poput GDPR-a, uključujući treniranje i poboljšavanje naših modela za korisnike i šire društvo u skladu s našom misijom da opća umjetna inteligencija koristi svima, kako je detaljnije objašnjeno u našem Pravilniku o zaštiti privatnosti. Proveli smo procjenu učinka na zaštitu podataka kako bismo osigurali da te informacije prikupljamo i upotrebljavamo zakonito i odgovorno.

Kada se informacije mogu dijeliti ili prenositi

Ne „prodajemo” osobne podatke i otkrivamo osobne podatke u podacima za treniranje samo u ograničenim okolnostima opisanima u našem Pravilniku o zaštiti privatnosti. Na primjer, informacije možemo dijeliti s povezanim društvima, dobavljačima i pružateljima usluga koji podržavaju razvoj, testiranje i poboljšavanje naših modela. Informacije možemo otkriti i u dobroj vjeri da je takvo postupanje nužno radi ispunjavanja zakonske obveze ili zaštite naših prava, sigurnosti i zaštite te prava, sigurnosti i zaštite naših korisnika, zaposlenika ili javnosti, kako je opisano u našem Pravilniku o zaštiti privatnosti.

Budući da je naša infrastruktura globalna, osobni podaci u podacima za treniranje mogu se obrađivati u zemljama izvan EGP-a, Švicarske ili Ujedinjene Kraljevine (uključujući Sjedinjene Američke Države). Kada se to dogodi, primjenjujemo odgovarajuće zaštitne mjere, kao što su odluke o primjerenosti ili standardne ugovorne klauzule, kako je opisano u našem Pravilniku o zaštiti privatnosti.

Vaša prava i kako ih ostvariti

Odgovaramo na zahtjeve za prigovor i slične zahtjeve za ostvarivanje prava. Kao posljedica učenja jezika, odgovori ChatGPT-a ponekad mogu sadržavati osobne podatke o pojedincima čiji se osobni podaci više puta pojavljuju na javnom internetu (na primjer, o javnim osobama). Pojedinci u određenim jurisdikcijama mogu uložiti prigovor na obradu svojih osobnih podataka od strane naših modela ili podnijeti druge zahtjeve za ostvarivanje prava ispitanika putem našeg Portala za privatnost. Ta prava možete ostvariti i tako da nam se obratite na privacy@openai.com.

Kako biste nam pomogli procijeniti vaš zahtjev i odgovoriti na njega, navedite dovoljno informacija da bismo razumjeli na koje se osobne podatke vaš zahtjev odnosi, kao što su vaše ime, relevantni URL-ovi, konkretni primjeri izlaza modela ili drugi detalji koji pomažu prepoznati problem. U nekim slučajevima možemo zatražiti da potvrdite svoj identitet ili potvrdite da se informacije odnose na vas prije nego što možemo poduzeti radnje. Više informacija o tome kako podnijeti te zahtjeve, uključujući najbolje prakse i način pregleda zahtjeva, dostupno je u našem članku Centra za pomoć o uklanjanju osobnih podataka iz ChatGPT-a. Zahtjeve pregledavamo u skladu s primjenjivim zakonima o privatnosti i odgovaramo u primjenjivim zakonskim rokovima.

Imajte na umu da, u skladu sa zakonima o privatnosti, neka prava možda nisu apsolutna. Na primjer, možda nećemo moći ispuniti zahtjev ako ne možemo provjeriti relevantne informacije, ako se zahtjev ne odnosi na osobne podatke koje obrađuje OpenAI, ako se primjenjuje izuzeće ili ako za to imamo drugi zakonit razlog. Zahtjevi se procjenjuju od slučaja do slučaja i mogu uključivati odmjeravanje prava na privatnost u odnosu na druga važna razmatranja, kao što su sloboda izražavanja i javni interes.

Međutim, nastojimo dati prednost zaštiti osobnih podataka i pridržavamo se svih primjenjivih zakona o privatnosti. Ako smatrate da nismo na odgovarajući način riješili problem, imate pravo podnijeti pritužbu svojem lokalnom nadzornom tijelu.

Za više informacija o OpenAI-jevim praksama u vezi s osobnim podacima koje prikupljamo od vas ili o vama kada upotrebljavate naše web-mjesto, aplikacije i usluge, pogledajte naš Pravilnik o zaštiti privatnosti.

Kako se razvijaju ChatGPT i naši temeljni modeli

Što je ChatGPT i kako funkcionira?

Koja se vrsta informacija upotrebljava za podučavanje ChatGPT-a?

Upotrebljavaju li se osobni podaci za podučavanje ChatGPT-a?

Kako je razvoj ChatGPT-a usklađen sa zakonima o privatnosti?

Je li vam ovaj članak bio koristan?