OpenAI
Ova je stranica strojno prevedena. Pogledajte izvorni članak na engleskom jeziku.

Kako se razvijaju ChatGPT i naši temeljni modeli

Saznajte više o tome kako razvijamo svoje modele i primjenjujemo ih u proizvodima poput ChatGPT-a

Ažurirano: yesterday

Napomena: Na zadržavanje podataka za određene usluge mogu utjecati nedavni pravni događaji – za više pojedinosti pogledajte našu objavu na blogu.

Temeljni modeli OpenAI-ja, uključujući modele koji pokreću ChatGPT, razvijaju se upotrebom triju primarnih izvora informacija: (1) informacija koje su javno dostupne na internetu, (2) informacija kojima pristupamo u suradnji s trećim stranama i (3) informacija koje pružaju ili generiraju naši korisnici, ljudski treneri i istraživači.

Ovaj članak pruža pregled javno dostupnih informacija koje upotrebljavamo kako bismo pomogli u razvoju tih modela te načina na koji te informacije prikupljamo i upotrebljavamo u skladu sa zakonima o zaštiti privatnosti. Da biste razumjeli kako prikupljamo i upotrebljavamo informacije od korisnika naših usluga, uključujući kako isključiti upotrebu razgovora u ChatGPT-u za pomoć u podučavanju naših modela, pogledajte naš Pravilnik o zaštiti privatnosti i ovaj članak centra za pomoć.

Što je ChatGPT i kako funkcionira?

ChatGPT je usluga temeljena na umjetnoj inteligenciji kojoj možete pristupiti putem interneta. ChatGPT možete upotrebljavati za širok raspon zadataka, uključujući organiziranje i sažimanje informacija, pomoć pri prijevodima, analizu ili generiranje slika, poticanje kreativnosti i ideja te druge svakodnevne aktivnosti. ChatGPT je osmišljen tako da razumije pitanja i upute korisnika te na njih odgovara učenjem obrazaca iz velikih količina informacija, uključujući tekst, slike, zvuk i videozapise. Tijekom treniranja model analizira odnose unutar tih podataka, primjerice kako se riječi obično pojavljuju zajedno u kontekstu, i to razumijevanje upotrebljava kako bi pri generiranju odgovora predvidio sljedeću najvjerojatniju riječ, jednu po jednu. Slično tome, modeli koji generiraju druge oblike sadržaja, poput slika, uče obrasce u tome kako su pikseli povezani jedni s drugima i s pripadajućim opisima u podacima za treniranje.

Na primjer, tijekom procesa učenja modela (poznatog kao „treniranje”), model može dobiti zadatak da dovrši rečenicu poput: „Umjesto da skrene lijevo, skrenula je ___.” U ranoj fazi treniranja njegovi su odgovori uglavnom nasumični. Međutim, kako model obrađuje veliku količinu teksta i uči iz nje, postaje bolji u prepoznavanju obrazaca i predviđanju najvjerojatnije sljedeće riječi. Taj se postupak ponavlja na milijunima rečenica kako bi se usavršilo njegovo razumijevanje i poboljšala njegova točnost.

Budući da postoji više uvjerljivih načina za dovršavanje rečenice, primjerice „Umjesto da skrene lijevo, skrenula je desno”, „okrenula se” ili „vratila se”, u načinu na koji model odgovara postoji inherentan element nasumičnosti. Zbog toga isto pitanje može dati različite odgovore u različitim upitima.

Modeli strojnog učenja sastoje se od velikih skupova brojeva, poznatih kao „težine” ili „parametri”, te koda koji tumači i upotrebljava te brojeve. Ti modeli ne pohranjuju niti zadržavaju kopije podataka na kojima su trenirani. Umjesto toga, kako model uči, vrijednosti njegovih parametara neznatno se prilagođavaju kako bi odražavale obrasce koje je prepoznao. U ranijem primjeru model se poboljšao od predviđanja nasumičnih riječi do davanja točnijih predviđanja, ne pohranjivanjem rečenica za treniranje, nego ažuriranjem svojih unutarnjih parametara. Model ne zadržava kopije rečenica, slika ili zvuka koje obrađuje tijekom treniranja. ChatGPT ne „kopira i lijepi” iz svojih podataka za treniranje, slično kao što učitelj, nakon opsežnog učenja, može objasniti pojmove razumijevanjem odnosa među idejama, bez pamćenja ili doslovnog reproduciranja izvornih materijala. Kada generira odgovor na korisnički zahtjev, model upotrebljava te naučene težine za predviđanje i stvaranje novog sadržaja.

Koja se vrsta javnih informacija upotrebljava za podučavanje ChatGPT-a?

Za javno dostupan internetski sadržaj upotrebljavamo samo informacije koje su slobodno i otvoreno dostupne na internetu. Ne prikupljamo namjerno podatke iz izvora za koje je poznato da se nalaze iza sustava naplate ili s dark weba. Osim toga, primjenjujemo filtre za uklanjanje materijala iz kojih ne želimo da naši modeli uče, kao što su govor mržnje, sadržaj za odrasle, web-mjesta koja agregiraju osobne informacije i neželjena pošta. Preostale informacije zatim se upotrebljavaju za treniranje naših modela.

Upotrebljavaju li se osobne informacije za podučavanje ChatGPT-a?

Značajan dio internetskog sadržaja uključuje informacije o ljudima, pa naši podaci za treniranje mogu slučajno uključivati osobne informacije. Međutim, ne prikupljamo namjerno osobne informacije u svrhu treniranja naših modela.

Podatke za treniranje upotrebljavamo za razvoj sposobnosti modela, kao što su predviđanje, rasuđivanje i rješavanje problema, a ne za izradu korisničkih profila, kontaktiranje pojedinaca ili kao dio naših oglašivačkih ili marketinških aktivnosti.

U nekim slučajevima modeli mogu učiti iz osobnih informacija kako bi razumjeli kako elementi poput imena i adresa funkcioniraju u jeziku ili kako bi prepoznali javne osobe i poznate subjekte. To pomaže modelu da generira točnije i kontekstualno prikladnije odgovore.

Poduzimamo aktivne korake za ograničavanje obrade osobnih informacija tijekom treniranja. Na primjer, isključujemo izvore koji agregiraju velike količine osobnih podataka i treniramo naše modele da izbjegavaju odgovarati na zahtjeve za privatnim ili osjetljivim informacijama o pojedincima.

Kako je razvoj ChatGPT-a usklađen sa zakonima o zaštiti privatnosti?

Informacije za treniranje upotrebljavamo zakonito. Naši temeljni modeli pokreću širok raspon korisnih primjena, od stvaranja sadržaja i korisničke podrške do razvoja softvera, personaliziranog obrazovanja i znanstvenih istraživanja. Te mogućnosti ovise o podacima za treniranje velikih razmjera. Informacije koje se upotrebljavaju za treniranje naših modela javno su dostupne i nisu namijenjene nanošenju štete pojedincima. Prikupljanje i upotrebu osobnih informacija uključenih u informacije za treniranje temeljimo na legitimnim interesima u skladu sa zakonima o zaštiti privatnosti kao što je GDPR, kako je detaljnije objašnjeno u našem Pravilniku o zaštiti privatnosti. Proveli smo procjenu učinka na zaštitu podataka kako bismo pomogli osigurati da te informacije prikupljamo i upotrebljavamo zakonito i odgovorno.


Odgovaramo na zahtjeve za prigovor i ostvarivanje sličnih prava. Kao rezultat učenja jezika, odgovori ChatGPT-a ponekad mogu uključivati osobne informacije o pojedincima čije se osobne informacije više puta pojavljuju na javnom internetu (na primjer, javne osobe). Pojedinci u određenim jurisdikcijama mogu uložiti prigovor na obradu svojih osobnih informacija u našim modelima ili podnijeti druge zahtjeve za ostvarivanje prava ispitanika putem našeg Portala za privatnost. Ta prava možete ostvariti i tako da nam se obratite na dsar@openai.com.

Imajte na umu da, u skladu sa zakonima o zaštiti privatnosti, neka prava možda nisu apsolutna. Možemo odbiti zahtjev ako za to imamo zakonit razlog. Međutim, nastojimo dati prioritet zaštiti osobnih informacija i pridržavati se svih primjenjivih zakona o zaštiti privatnosti. Ako smatrate da nismo na odgovarajući način riješili problem, imate pravo podnijeti pritužbu svojem lokalnom nadzornom tijelu.


Više informacija o praksama OpenAI-ja u vezi s osobnim informacijama koje prikupljamo od vas ili o vama kada upotrebljavate naše web-mjesto, aplikacije i usluge potražite u našem Pravilniku o zaštiti privatnosti.

Je li vam ovaj članak bio koristan?