Aflați mai multe despre cum ne dezvoltăm modelele și le aplicăm în produse precum ChatGPT

Modelele de bază ale OpenAI, inclusiv modelele pe care se bazează ChatGPT, sunt dezvoltate folosind trei surse principale de informații: (1) informații disponibile public pe internet, (2) informații la care obținem acces prin parteneriate cu terți și (3) informații pe care utilizatorii, trainerii umani și cercetătorii noștri le furnizează sau le generează.

Dezvoltarea modelelor de bază precum cele folosite în ChatGPT implică mai multe etape, inclusiv pregătirea datelor de instruire, pre-instruire și post-instruire, precum și evaluare și îmbunătățire continuă după implementare. În aceste etape pot fi folosite diferite tipuri de informații în diverse scopuri, inclusiv pentru a îmbunătăți performanța, fiabilitatea și siguranța modelului.

Acest articol oferă o prezentare generală a informațiilor pe care le folosim pentru a contribui la dezvoltarea acestor modele, a modului în care colectăm și folosim aceste informații în conformitate cu legislația privind confidențialitatea și a măsurilor de protecție pe care le aplicăm pe tot parcursul procesului de instruire. Pentru a înțelege cum colectăm și folosim informațiile de la utilizatorii serviciilor noastre, inclusiv cum puteți renunța la folosirea conversațiilor ChatGPT pentru a contribui la îmbunătățirea modelelor noastre, consultați Politica de confidențialitate și acest articol din Centrul de asistență.

Ce este ChatGPT și cum funcționează?

ChatGPT este un serviciu bazat pe inteligență artificială pe care îl puteți accesa prin internet sau prin aplicație. Puteți folosi ChatGPT pentru o gamă largă de sarcini, inclusiv organizarea și rezumarea informațiilor, asistență pentru traduceri, sprijin pentru programare, cercetare și analiză, finalizarea sarcinilor în mai mulți pași în diverse instrumente, analizarea sau generarea de imagini, stimularea creativității și a ideilor, precum și alte activități de zi cu zi. ChatGPT este conceput să înțeleagă întrebările și instrucțiunile utilizatorilor și să răspundă la acestea, învățând tipare din cantități mari de informații, inclusiv text, imagini, audio și video.

În timpul instruirii, modelul analizează relațiile din aceste date — de exemplu, cum apar de obicei cuvintele împreună în context — și folosește această înțelegere pentru a prezice următorul cuvânt cel mai probabil atunci când generează un răspuns, câte un cuvânt pe rând. Textul poate fi convertit în unități mai mici, numite uneori „tokenuri”, care pot reprezenta cuvinte întregi, părți de cuvinte sau semne de punctuație. Tokenurile sunt elementele de bază ale textului pe care modelul le procesează. În mod similar, modelele care generează alte forme de conținut, cum ar fi imagini, învață tipare despre modul în care pixelii se raportează între ei și la descrierile asociate din datele de instruire.

De exemplu, în timpul procesului de învățare al modelului (cunoscut drept „instruire”), modelul ar putea primi sarcina de a completa o propoziție precum: „În loc să vireze la stânga, ea a virat la ___.” La începutul instruirii, răspunsurile sale sunt în mare parte aleatorii. Totuși, pe măsură ce modelul procesează și învață dintr-un volum mare de text, devine mai bun la recunoașterea tiparelor și la prezicerea celui mai probabil cuvânt următor. Acest proces se repetă pe milioane de propoziții pentru a-i rafina înțelegerea și a-i îmbunătăți acuratețea.

Deoarece există mai multe moduri plauzibile de a completa o propoziție — precum „În loc să vireze la stânga, ea a virat la dreapta”, „împrejur” sau „înapoi” — există un element inerent de aleatoriu în modul în care răspunde modelul. Prin urmare, aceeași întrebare poate genera răspunsuri diferite în interogări diferite.

Modelele de învățare automată constau în seturi mari de numere, cunoscute drept „ponderi” sau „parametri”, împreună cu codul care interpretează și folosește aceste numere. Aceste modele nu stochează și nu păstrează copii ale datelor pe care sunt instruite. În schimb, pe măsură ce un model învață, valorile parametrilor săi sunt ajustate ușor pentru a reflecta tiparele pe care le-a identificat. În exemplul anterior, modelul a trecut de la prezicerea unor cuvinte aleatorii la predicții mai precise — nu prin stocarea propozițiilor de instruire, ci prin actualizarea parametrilor săi interni. Modelul nu păstrează copii ale propozițiilor, imaginilor sau conținutului audio pe care le procesează în timpul instruirii. ChatGPT nu „copiază și lipește” din datele sale de instruire — similar modului în care un profesor, după un studiu amplu, poate explica concepte înțelegând relațiile dintre idei, fără a memora sau reproduce textual materialele originale. Atunci când generează un răspuns la o solicitare a utilizatorului, modelul folosește aceste ponderi învățate pentru a prezice și crea conținut nou.

Ce tip de informații se folosesc pentru a învăța ChatGPT?

Pentru conținutul disponibil public pe internet, folosim doar informații care sunt accesibile liber și deschis pe internet. Acestea pot include pagini web disponibile public, forumuri publice, bloguri publice, postări publice și alt conținut online disponibil public. De exemplu, dacă participați la un forum de discuții online disponibil public sau publicați un blog public ori altă postare publică, putem folosi acel conținut accesibil public în scopuri de instruire a modelului. Totuși, luăm măsuri pentru a reduce prelucrarea informațiilor personale în procesul nostru de instruire. Atunci când colectăm conținut disponibil public pe internet, nu colectăm în mod intenționat date din surse despre care se știe că se află în spatele unor paywall-uri sau de pe dark web. În plus, aplicăm filtre pentru a elimina materialele din care nu dorim ca modelele noastre să învețe, cum ar fi discursul instigator la ură, conținutul pentru adulți, site-urile care agregă informații personale și spamul. Informațiile rămase sunt apoi folosite pentru a instrui modelele noastre.

Proprietarii de site-uri web pot gestiona dacă poate fi accesat conținutul disponibil public de pe site-urile lor pentru a fi folosit la instruire, utilizând controale web standard precum robots.txt pentru a interzice GPTBot, care poate parcurge conținut disponibil public pentru a ajuta la instruirea modelelor noastre. Oferim îndrumări pentru a ajuta proprietarii de site-uri web să gestioneze modul în care site-urile și conținutul lor interacționează cu sistemele noastre de AI.

Folosim, de asemenea, informații de la parteneri terți pentru a contribui la instruirea și îmbunătățirea modelelor noastre. Acestea pot include informații din seturi de date la care avem acces prin acorduri cu terți, precum și informații furnizate sau generate de traineri umani și cercetători, acolo unde este permis de politicile și acordurile noastre. Acest lucru contribuie la îmbunătățirea calității, siguranței și performanței modelelor noastre. Aceste surse pot include text, imagini, audio, video sau alte tipuri de date, în funcție de setul de date.

Folosim tot mai mult și date sintetice în unele procese de instruire. De exemplu, putem folosi informații și modelele noastre pentru a genera solicitări sintetice, exemple multilingve sau alte materiale de instruire. Datele sintetice pot contribui la îmbunătățirea performanței modelului, inclusiv prin completarea datelor de instruire în domenii în care datele sunt rare sau dezechilibrate, și pot sprijini, de asemenea, abordări de dezvoltare a modelelor care consolidează confidențialitatea.

Sunt folosite informații personale pentru a învăța ChatGPT?

O parte semnificativă a conținutului online conține informații despre persoane, astfel că datele noastre de instruire pot include incidental informații personale. Totuși, luăm măsuri pentru a reduce prelucrarea informațiilor personale în procesul nostru de instruire.

Folosim datele de instruire pentru a dezvolta capacitățile modelului — precum predicția, raţionamentul și rezolvarea problemelor — nu pentru a crea profiluri ale persoanelor, a le contacta sau a le personaliza reclamele.

În unele cazuri, modelele pot învăța din informații personale pentru a înțelege cum funcționează în limbaj elemente precum numele și adresele sau pentru a recunoaște persoane publice și entități bine cunoscute. Acest lucru ajută modelul să genereze răspunsuri mai exacte și adecvate contextului.

Cum sunt protejate informațiile personale în timpul instruirii?

Luăm măsuri active pentru a limita prelucrarea informațiilor personale în timpul instruirii. De exemplu, excludem surse cunoscute care agregă cantități mari de date personale, aplicăm filtrare pentru a reduce informațiile personale în procesul de instruire și luăm măsuri pentru a identifica și elimina conținutul duplicat, reducând riscul de repetare a datelor de instruire. În plus, ne instruim modelele să evite să răspundă solicitărilor de informații private sau sensibile despre persoane.

Cât timp păstrăm informațiile

Păstrăm informațiile din datele de instruire doar atât timp cât este rezonabil necesar pentru scopurile descrise în acest articol și în Politica de confidențialitate, inclusiv pentru a dezvolta și îmbunătăți modelele noastre și în scopuri conexe de cercetare științifică. Păstrarea este supusă unei revizuiri periodice pentru a asigura necesitatea continuă și variază în funcție de tipul de informații și de modul în care sunt folosite. Pentru a stabili perioada de păstrare, luăm în considerare factori precum scopul prelucrării informațiilor, cantitatea, natura și caracterul sensibil al informațiilor, riscul potențial de prejudiciu cauzat de utilizarea sau divulgarea neautorizată și orice obligații legale care ni se aplică.

Cum respectă dezvoltarea ChatGPT legislația privind confidențialitatea?

Folosim informațiile de instruire în mod legal. Modelele noastre de bază susțin o gamă largă de aplicații benefice — inclusiv instrumente de accesibilitate, asistență pentru clienți, dezvoltare software, educație personalizată și cercetare științifică. Aceste capacități depind de date de instruire la scară largă, inclusiv informații disponibile public și informații de la parteneri terți. Aplicăm măsuri de protecție pe tot parcursul procesului de instruire, inclusiv măsuri concepute pentru a reduce prelucrarea informațiilor personale în procesul de instruire și pentru a atenua riscurile, așa cum este descris în acest articol. Ne bazăm colectarea și utilizarea informațiilor personale incluse în informațiile de instruire pe interese legitime prevăzute de legislația privind confidențialitatea, precum GDPR, inclusiv pentru a instrui și îmbunătăți modelele noastre pentru utilizatori și pentru societate în ansamblu, în acord cu misiunea noastră de a ne asigura că inteligență generală artificială aduce beneficii tuturor, după cum se explică mai detaliat în Politica de confidențialitate. Am finalizat o evaluare a impactului asupra protecției datelor pentru a contribui la asigurarea faptului că aceste informații sunt colectate și folosite legal și responsabil.

Când informațiile pot fi partajate sau transferate

Nu „vindem” informații personale și divulgăm informații personale din datele de instruire doar în circumstanțele limitate descrise în Politica de confidențialitate. De exemplu, putem partaja informații cu afiliați, furnizori și prestatori de servicii care sprijină dezvoltarea, testarea și îmbunătățirea modelelor noastre. De asemenea, putem divulga informații atunci când credem cu bună-credință că o astfel de acțiune este necesară pentru a respecta o obligație legală sau pentru a proteja drepturile, siguranța și securitatea noastră și pe cele ale utilizatorilor, angajaților sau publicului, așa cum este descris în Politica de confidențialitate.

Deoarece infrastructura noastră este globală, informațiile personale din datele de instruire pot fi prelucrate în țări din afara SEE, Elveției sau Regatului Unit (inclusiv în Statele Unite). Atunci când se întâmplă acest lucru, aplicăm garanții adecvate, cum ar fi deciziile privind caracterul adecvat al protecției sau clauzele contractuale standard, așa cum este descris în Politica de confidențialitate.

Drepturile dumneavoastră și modul de exercitare a acestora

Răspundem cererilor de opoziție și cererilor similare de exercitare a drepturilor. Ca urmare a învățării limbajului, răspunsurile ChatGPT pot include uneori informații personale despre persoane ale căror informații personale apar de mai multe ori pe internetul public (de exemplu, persoane publice). Persoanele din anumite jurisdicții se pot opune prelucrării informațiilor lor personale de către modelele noastre sau pot depune alte cereri privind drepturile persoanei vizate prin Portalul de confidențialitate. De asemenea, vă puteți exercita aceste drepturi contactând privacy@openai.com.

Pentru a ne ajuta să evaluăm cererea dumneavoastră și să răspundem la aceasta, vă rugăm să furnizați suficiente informații pentru ca noi să înțelegem la ce informații personale se referă cererea, cum ar fi numele dumneavoastră, URL-uri relevante, exemple specifice de rezultate ale modelului sau alte detalii care ajută la identificarea problemei. În unele cazuri, vă putem cere să vă verificați identitatea sau să confirmați că informațiile se referă la dumneavoastră înainte de a putea lua măsuri. Mai multe informații despre cum se depun aceste cereri, inclusiv bune practici și modul în care sunt analizate cererile, sunt disponibile în articolul din Centrul de asistență despre eliminarea datelor personale din ChatGPT. Analizăm cererile în conformitate cu legislația aplicabilă privind confidențialitatea și răspundem în termenele legale aplicabile.

Vă rugăm să rețineți că, în conformitate cu legislația privind confidențialitatea, unele drepturi pot să nu fie absolute. De exemplu, este posibil să nu putem îndeplini o cerere atunci când nu putem verifica informațiile relevante, când cererea nu se referă la informații personale prelucrate de OpenAI, când se aplică o excepție sau când avem un alt motiv legal pentru a proceda astfel. Cererile sunt evaluate de la caz la caz și pot implica echilibrarea drepturilor la confidențialitate cu alte considerente importante, precum libertatea de exprimare și interesul public.

Totuși, ne străduim să acordăm prioritate protejării informațiilor personale și respectăm toate legile aplicabile privind confidențialitatea. Dacă considerați că nu am abordat în mod adecvat o problemă, aveți dreptul de a depune o plângere la autoritatea locală de supraveghere.

Pentru mai multe informații despre practicile OpenAI referitoare la informațiile personale pe care le colectăm de la sau despre dumneavoastră atunci când folosiți site-ul, aplicațiile și serviciile noastre, consultați Politica de confidențialitate.

Cum sunt dezvoltate ChatGPT și modelele noastre fundamentale

Ce este ChatGPT și cum funcționează?

Ce tip de informații se folosesc pentru a învăța ChatGPT?

Sunt folosite informații personale pentru a învăța ChatGPT?

Cum respectă dezvoltarea ChatGPT legislația privind confidențialitatea?

A fost util acest articol?