Sužinokite daugiau apie tai, kaip kuriame savo modelius ir taikome juos tokiuose produktuose kaip ChatGPT

OpenAI pamatiniai modeliai, įskaitant modelius, kuriais veikia ChatGPT, kuriami naudojant tris pagrindinius informacijos šaltinius: (1) viešai internete prieinamą informaciją, (2) informaciją, prie kurios prieigą gauname bendradarbiaudami su trečiosiomis šalimis, ir (3) informaciją, kurią pateikia arba sukuria mūsų naudotojai, žmonės instruktoriai ir tyrėjai.

Pamatinių modelių, tokių kaip naudojami ChatGPT, kūrimas apima kelis etapus, įskaitant mokymo duomenų rengimą, išankstinį mokymą ir vėlesnį mokymą, taip pat nuolatinį vertinimą ir tobulinimą po įdiegimo. Šiuose etapuose įvairiais tikslais gali būti naudojami skirtingų tipų duomenys, įskaitant modelio našumo, patikimumo ir saugos gerinimą.

Šiame straipsnyje apžvelgiama informacija, kurią naudojame šiems modeliams kurti, kaip ją renkame ir naudojame laikydamiesi privatumo įstatymų, ir kokias apsaugos priemones taikome per visą mokymo procesą. Norėdami suprasti, kaip renkame ir naudojame informaciją iš mūsų paslaugų naudotojų, įskaitant tai, kaip atsisakyti, kad ChatGPT pokalbiai būtų naudojami mūsų modeliams tobulinti, žr. mūsų privatumo politiką ir šį pagalbos centro straipsnį.

Kas yra ChatGPT ir kaip jis veikia?

ChatGPT yra dirbtiniu intelektu pagrįsta paslauga, kurią galite pasiekti internetu arba programėlėje. ChatGPT galite naudoti įvairioms užduotims: informacijai tvarkyti ir apibendrinti, vertimams atlikti, programavimui, tyrimams ir analizei, kelių etapų užduotims įvairiuose įrankiuose atlikti, vaizdams analizuoti ar generuoti, kūrybiškumui ir idėjoms skatinti bei kitai kasdienei veiklai. ChatGPT sukurtas taip, kad suprastų naudotojų klausimus bei instrukcijas ir į juos atsakytų mokydamasis dėsningumų iš didelio informacijos kiekio, įskaitant tekstą, vaizdus, garsą ir vaizdo įrašus.

Mokymo metu modelis analizuoja ryšius šiuose duomenyse, pavyzdžiui, kaip žodžiai paprastai kartu vartojami kontekste, ir naudodamas šį supratimą prognozuoja kitą labiausiai tikėtiną žodį, atsakymą generuodamas po vieną žodį. Tekstas gali būti paverčiamas mažesniais vienetais, kartais vadinamais „žetonais“, kurie gali reikšti ištisus žodžius, žodžių dalis arba skyrybos ženklus. Žetonai yra teksto sudedamosios dalys, kurias modelis apdoroja. Panašiai modeliai, generuojantys kitų formų turinį, pavyzdžiui, vaizdus, mokosi dėsningumų, kaip pikseliai susiję tarpusavyje ir su susijusiomis antraštėmis mokymo duomenyse.

Pavyzdžiui, modelio mokymosi proceso metu (vadinamo „mokymu“) modeliui gali būti pavesta užbaigti tokį sakinį: „Užuot pasukusi į kairę, ji pasuko ___.“ Mokymo pradžioje jo atsakymai iš esmės yra atsitiktiniai. Tačiau modeliui apdorojant didelį teksto kiekį ir iš jo mokantis, jis vis geriau atpažįsta dėsningumus ir prognozuoja labiausiai tikėtiną kitą žodį. Šis procesas kartojamas su milijonais sakinių, kad būtų patobulintas modelio supratimas ir padidintas tikslumas.

Kadangi sakinį galima pagrįstai užbaigti keliais būdais, pavyzdžiui: „Užuot pasukusi į kairę, ji pasuko į dešinę“, „apsisuko“ arba „grįžo atgal“, modelio atsakymuose neišvengiamai yra atsitiktinumo elementas. Todėl į tą patį klausimą skirtingose užklausose gali būti pateikiami skirtingi atsakymai.

Mašininio mokymosi modelius sudaro dideli skaičių rinkiniai, vadinami „svoriais“ arba „parametrais“, ir kodas, kuris tuos skaičius interpretuoja ir naudoja. Šie modeliai nesaugo ir neišlaiko duomenų, kuriais buvo mokomi, kopijų. Vietoj to, modeliui mokantis, jo parametrų reikšmės šiek tiek pakoreguojamos, kad atspindėtų jo nustatytus dėsningumus. Ankstesniame pavyzdyje modelis nuo atsitiktinių žodžių prognozavimo perėjo prie tikslesnių prognozių ne saugodamas mokymo sakinius, o atnaujindamas savo vidinius parametrus. Modelis neišlaiko sakinių, vaizdų ar garso, kuriuos apdoroja mokymo metu, kopijų. ChatGPT „nekopijuoja ir neįklijuoja“ iš savo mokymo duomenų — panašiai kaip mokytojas po išsamių studijų gali paaiškinti sąvokas suprasdamas idėjų tarpusavio ryšius, o ne įsimindamas ar pažodžiui atkartodamas pirminę medžiagą. Generuodamas atsakymą į naudotojo užklausą, modelis naudoja šiuos išmoktus svorius naujam turiniui prognozuoti ir kurti.

Kokio tipo informacija naudojama ChatGPT mokyti?

Kalbant apie viešai prieinamą interneto turinį, naudojame tik tokią informaciją, kuri internete yra laisvai ir atvirai prieinama. Tai gali būti viešai prieinami tinklalapiai, vieši forumai, vieši tinklaraščiai, vieši įrašai ir kitas viešai prieinamas internetinis turinys. Pavyzdžiui, jei dalyvaujate viešai prieinamame internetiniame diskusijų forume arba paskelbiate viešą tinklaraščio ar kitą įrašą, galime naudoti šį viešai prieinamą turinį modelių mokymo tikslais. Tačiau imamės veiksmų, kad mokymo procese būtų mažiau tvarkoma asmeninės informacijos. Rinkdami viešai prieinamą interneto turinį, sąmoningai nerenkame duomenų iš šaltinių, kurie, kaip žinoma, yra už mokamų prieigų, arba iš tamsiojo interneto. Be to, taikome filtrus, kad pašalintume medžiagą, iš kurios nenorime, kad mūsų modeliai mokytųsi, pavyzdžiui, neapykantos kalbą, suaugusiesiems skirtą turinį, svetaines, kaupiančias asmeninę informaciją, ir šlamštą. Likusi informacija tada naudojama mūsų modeliams mokyti.

Svetainių savininkai gali valdyti, ar viešai prieinamas jų svetainių turinys gali būti pasiekiamas naudoti mokymui, naudodami standartines žiniatinklio valdymo priemones, pvz., robots.txt, kad uždraustų GPTBot, kuris gali tikrinti viešai prieinamą turinį ir taip padėti mokyti mūsų modelius. Teikiame gaires, padedančias svetainių savininkams valdyti, kaip jų svetainės ir turinys sąveikauja su mūsų DI sistemomis.

Taip pat naudojame informaciją iš trečiųjų šalių partnerių, kad padėtume mokyti ir tobulinti savo modelius. Tai gali apimti informaciją duomenų rinkiniuose, prie kurių gauname prieigą pagal susitarimus su trečiosiomis šalimis, taip pat informaciją, kurią pateikia arba sukuria žmonės instruktoriai ir tyrėjai, kai tai leidžiama pagal mūsų politikas ir susitarimus. Tai padeda gerinti mūsų modelių kokybę, saugą ir našumą. Priklausomai nuo duomenų rinkinio, šie šaltiniai gali apimti tekstą, vaizdus, garsą, vaizdo įrašus ar kitų tipų duomenis.

Kai kuriuose mokymo procesuose taip pat vis dažniau naudojame sintetinius duomenis. Pavyzdžiui, galime naudoti informaciją ir savo modelius sintetinių užklausų, daugiakalbių pavyzdžių ar kitos mokymo medžiagos generavimui. Sintetiniai duomenys gali padėti gerinti modelio našumą, be kita ko, papildydami mokymo duomenis srityse, kuriose duomenų trūksta arba jie yra nesubalansuoti, taip pat gali palaikyti privatumą stiprinančius modelių kūrimo metodus.

Ar asmeninė informacija naudojama ChatGPT mokyti?

Didelė internetinio turinio dalis yra susijusi su informacija apie žmones, todėl mūsų mokymo duomenyse gali atsitiktinai būti asmeninės informacijos. Tačiau imamės veiksmų, kad mokymo procese būtų mažiau tvarkoma asmeninės informacijos.

Mokymo duomenis naudojame modelio gebėjimams, pvz., prognozavimui, protavimui ir problemų sprendimui, ugdyti, o ne asmenų profiliams kurti, su jais susisiekti ar jiems reklamas suasmeninti.

Kai kuriais atvejais modeliai gali mokytis iš asmeninės informacijos, kad suprastų, kaip tokie elementai kaip vardai ir adresai veikia kalboje, arba kad atpažintų viešus asmenis ir gerai žinomus subjektus. Tai padeda modeliui generuoti tikslesnius ir kontekstui tinkamesnius atsakymus.

Kaip asmeninė informacija apsaugoma mokymo metu?

Imamės aktyvių veiksmų, kad mokymo metu būtų ribojamas asmeninės informacijos tvarkymas. Pavyzdžiui, neįtraukiame žinomų šaltinių, kurie kaupia didelius kiekius asmens duomenų, taikome filtravimą, kad mokymo procese sumažintume asmeninės informacijos kiekį, ir imamės veiksmų pasikartojančiam turiniui nustatyti bei pašalinti, kad sumažintume mokymo duomenų kartojimo riziką. Be to, mokome savo modelius vengti atsakyti į prašymus pateikti privačią ar neskelbtiną informaciją apie asmenis.

Kiek laiko saugome informaciją

Mokymo duomenyse esančią informaciją saugome tik tiek laiko, kiek pagrįstai būtina šiame straipsnyje ir mūsų privatumo politikoje aprašytais tikslais, įskaitant mūsų modelių kūrimą ir tobulinimą bei susijusių mokslinių tyrimų tikslus. Saugojimas periodiškai peržiūrimas siekiant užtikrinti, kad jis tebėra būtinas, ir skiriasi priklausomai nuo informacijos tipo bei jos naudojimo būdo. Nustatydami saugojimo trukmę, atsižvelgiame į tokius veiksnius kaip mūsų tikslas tvarkyti informaciją, informacijos kiekis, pobūdis ir jautrumas, galima žalos rizika dėl neteisėto naudojimo ar atskleidimo ir bet kokios mums taikomos teisinės pareigos.

Kaip ChatGPT kūrimas atitinka privatumo įstatymus?

Mokymo informaciją naudojame teisėtai. Mūsų pamatiniai modeliai suteikia galią plačiam naudingų programų spektrui, įskaitant prieinamumo įrankius, klientų aptarnavimą, programinės įrangos kūrimą, suasmenintą švietimą ir mokslinius tyrimus. Šie gebėjimai priklauso nuo didelio masto mokymo duomenų, įskaitant viešai prieinamą informaciją ir informaciją iš trečiųjų šalių partnerių. Per visą mokymo procesą taikome apsaugos priemones, įskaitant veiksmus, skirtus sumažinti asmeninės informacijos tvarkymą mokymo procese ir rizikoms mažinti, kaip aprašyta šiame straipsnyje. Asmeninės informacijos, įtrauktos į mokymo informaciją, rinkimą ir naudojimą grindžiame teisėtais interesais pagal privatumo įstatymus, tokius kaip BDAR, įskaitant mūsų modelių mokymą ir tobulinimą naudotojams bei platesnei visuomenei, laikantis mūsų misijos užtikrinti, kad bendrasis dirbtinis intelektas būtų naudingas visiems, kaip išsamiau paaiškinta mūsų privatumo politikoje. Esame atlikę poveikio duomenų apsaugai vertinimą, kad padėtume užtikrinti, jog šią informaciją renkame ir naudojame teisėtai bei atsakingai.

Kada informacija gali būti bendrinama arba perduodama

Mes „neparduodame“ asmeninės informacijos ir mokymo duomenyse esančią asmeninę informaciją atskleidžiame tik ribotomis aplinkybėmis, aprašytomis mūsų privatumo politikoje. Pavyzdžiui, galime dalytis informacija su susijusiomis įmonėmis, tiekėjais ir paslaugų teikėjais, kurie padeda kurti, testuoti ir tobulinti mūsų modelius. Taip pat galime atskleisti informaciją sąžiningai manydami, kad toks veiksmas būtinas siekiant vykdyti teisinę pareigą arba apsaugoti mūsų teises, saugą ir saugumą, taip pat mūsų naudotojų, darbuotojų ar visuomenės teises, saugą ir saugumą, kaip aprašyta mūsų privatumo politikoje.

Kadangi mūsų infrastruktūra yra pasaulinė, mokymo duomenyse esanti asmeninė informacija gali būti tvarkoma šalyse už EEE, Šveicarijos ar JK ribų (įskaitant Jungtines Valstijas). Kai taip nutinka, taikome tinkamas apsaugos priemones, pavyzdžiui, sprendimus dėl tinkamumo arba standartines sutarčių sąlygas, kaip aprašyta mūsų privatumo politikoje.

Jūsų teisės ir kaip jomis pasinaudoti

Atsakome į prieštaravimo prašymus ir panašius prašymus įgyvendinti teises. Mokydamasis kalbos, ChatGPT atsakymuose kartais gali pateikti asmeninę informaciją apie asmenis, kurių asmeninė informacija viešajame internete pasirodo daug kartų (pavyzdžiui, viešus asmenis). Tam tikrose jurisdikcijose esantys asmenys gali nesutikti, kad jų asmeninę informaciją tvarkytų mūsų modeliai, arba pateikti kitus duomenų subjekto teisių prašymus per mūsų Privatumo portalą. Taip pat galite pasinaudoti šiomis teisėmis susisiekę adresu privacy@openai.com.

Kad galėtume įvertinti jūsų prašymą ir į jį atsakyti, pateikite pakankamai informacijos, kad suprastume, su kokia asmenine informacija susijęs jūsų prašymas, pavyzdžiui, savo vardą, susijusius URL, konkrečius modelio išvesčių pavyzdžius ar kitą informaciją, padedančią nustatyti problemą. Kai kuriais atvejais prieš imdamiesi veiksmų galime paprašyti jūsų patvirtinti tapatybę arba patvirtinti, kad informacija yra susijusi su jumis. Daugiau informacijos apie tai, kaip pateikti šiuos prašymus, įskaitant geriausią praktiką ir tai, kaip prašymai peržiūrimi, rasite mūsų Pagalbos centro straipsnyje apie asmens duomenų pašalinimą iš ChatGPT. Prašymus peržiūrime laikydamiesi taikomų privatumo įstatymų ir atsakome per taikomus teisės aktuose nustatytus terminus.

Atkreipkite dėmesį, kad pagal privatumo įstatymus kai kurios teisės gali būti neabsoliučios. Pavyzdžiui, galime negalėti patenkinti prašymo, kai negalime patikrinti atitinkamos informacijos, kai prašymas nesusijęs su OpenAI tvarkoma asmenine informacija, kai taikoma išimtis arba kai turime kitą teisėtą priežastį taip elgtis. Prašymai vertinami kiekvienu konkrečiu atveju ir gali reikėti subalansuoti privatumo teises su kitais svarbiais aspektais, pavyzdžiui, saviraiškos laisve ir viešuoju interesu.

Vis dėlto stengiamės teikti pirmenybę asmeninės informacijos apsaugai ir laikomės visų taikomų privatumo įstatymų. Jei manote, kad tinkamai neišsprendėme problemos, turite teisę pateikti skundą savo vietos priežiūros institucijai.

Daugiau informacijos apie OpenAI praktiką, susijusią su asmenine informacija, kurią renkame iš jūsų arba apie jus, kai naudojatės mūsų svetaine, programomis ir paslaugomis, rasite mūsų privatumo politikoje.

Kaip kuriamas ChatGPT ir mūsų pamatiniai modeliai

Kas yra ChatGPT ir kaip jis veikia?

Kokio tipo informacija naudojama ChatGPT mokyti?

Ar asmeninė informacija naudojama ChatGPT mokyti?

Kaip ChatGPT kūrimas atitinka privatumo įstatymus?

Ar šis straipsnis buvo naudingas?