Aflați mai multe despre cum ne dezvoltăm modelele și le aplicăm în produse precum ChatGPT

Notă: Păstrarea datelor pentru anumite servicii poate fi afectată de evoluții juridice recente – consultați postarea noastră de pe blog pentru mai multe detalii.

Modelele de bază ale OpenAI, inclusiv modelele care susțin ChatGPT, sunt dezvoltate folosind trei surse principale de informații: (1) informații disponibile public pe internet, (2) informații la care obținem acces prin parteneriate cu terți și (3) informații pe care utilizatorii, trainerii umani și cercetătorii noștri le furnizează sau le generează.

Acest articol oferă o prezentare generală a informațiilor disponibile public pe care le folosim pentru a ajuta la dezvoltarea acestor modele și a modului în care colectăm și folosim aceste informații în conformitate cu legile privind confidențialitatea. Pentru a înțelege cum colectăm și folosim informațiile de la utilizatorii serviciilor noastre, inclusiv cum puteți refuza folosirea conversațiilor ChatGPT pentru a ajuta la instruirea modelelor noastre, consultați Politica de confidențialitate și acest articol din centrul de ajutor.

Ce este ChatGPT și cum funcționează?

ChatGPT este un serviciu bazat pe inteligență artificială pe care îl puteți accesa prin internet. Puteți folosi ChatGPT pentru o gamă largă de sarcini, inclusiv organizarea și rezumarea informațiilor, asistență la traduceri, analizarea sau generarea de imagini, stimularea creativității și a ideilor, precum și alte activități de zi cu zi. ChatGPT este conceput să înțeleagă și să răspundă la întrebările și instrucțiunile utilizatorilor învățând tipare din cantități mari de informații, inclusiv text, imagini, audio și video. În timpul instruirii, modelul analizează relațiile din aceste date — cum ar fi modul în care cuvintele apar de obicei împreună în context — și folosește această înțelegere pentru a prezice următorul cuvânt cel mai probabil atunci când generează un răspuns, câte un cuvânt pe rând. În mod similar, modelele care generează alte forme de conținut, cum ar fi imaginile, învață tipare privind modul în care pixelii se raportează între ei și la subtitrările asociate din datele de instruire.

De exemplu, în timpul procesului de învățare al modelului (cunoscut drept „instruire”), modelul ar putea primi sarcina de a completa o propoziție precum: „În loc să vireze la stânga, ea a virat ___.” La începutul instruirii, răspunsurile sale sunt în mare parte aleatorii. Cu toate acestea, pe măsură ce modelul procesează și învață dintr-un volum mare de text, devine mai bun la recunoașterea tiparelor și la prezicerea următorului cuvânt cel mai probabil. Acest proces este repetat pe milioane de propoziții pentru a-i rafina înțelegerea și a-i îmbunătăți acuratețea.

Deoarece există mai multe moduri plauzibile de a completa o propoziție — cum ar fi „În loc să vireze la stânga, ea a virat la dreapta”, „înapoi” sau „s-a întors” — există un element inerent de aleatoriu în modul în care răspunde modelul. Prin urmare, aceeași întrebare poate genera răspunsuri diferite la interogări diferite.

Modelele de învățare automată constau în seturi mari de numere, cunoscute drept „ponderi” sau „parametri”, împreună cu cod care interpretează și folosește aceste numere. Aceste modele nu stochează și nu păstrează copii ale datelor pe care sunt instruite. În schimb, pe măsură ce un model învață, valorile parametrilor săi sunt ajustate ușor pentru a reflecta tiparele pe care le-a identificat. În exemplul anterior, modelul s-a îmbunătățit, trecând de la prezicerea unor cuvinte aleatorii la predicții mai exacte — nu prin stocarea propozițiilor de instruire, ci prin actualizarea parametrilor săi interni. Modelul nu păstrează copii ale propozițiilor, imaginilor sau materialelor audio pe care le procesează în timpul instruirii. ChatGPT nu „copiază și lipește” din datele sale de instruire — similar cu modul în care un profesor, după un studiu aprofundat, poate explica concepte înțelegând relațiile dintre idei, fără a memora sau reproduce textual materialele originale. Atunci când generează un răspuns la solicitarea unui utilizator, modelul folosește aceste ponderi învățate pentru a prezice și a crea conținut nou.

Ce tip de informații publice este folosit pentru a instrui ChatGPT?

Pentru conținutul de pe internet disponibil public, folosim numai informații accesibile gratuit și deschis pe internet. Nu colectăm intenționat date din surse despre care se știe că se află în spatele unor paywall-uri sau din dark web. În plus, aplicăm filtre pentru a elimina materialele din care nu dorim ca modelele noastre să învețe, cum ar fi discursul instigator la ură, conținutul pentru adulți, site-urile care agregă informații personale și spamul. Informațiile rămase sunt apoi folosite pentru a instrui modelele noastre.

Sunt folosite informații personale pentru a instrui ChatGPT?

O parte semnificativă a conținutului online implică informații despre persoane, astfel încât datele noastre de instruire pot include accidental informații personale. Cu toate acestea, nu colectăm intenționat informații personale în scopul instruirii modelelor noastre.

Folosim datele de instruire pentru a dezvolta capacitățile modelului — cum ar fi predicția, raţionamentul și rezolvarea problemelor — nu pentru a crea profiluri de utilizator, a contacta persoane sau ca parte a eforturilor noastre de publicitate ori marketing.

În unele cazuri, modelele pot învăța din informații personale pentru a înțelege cum funcționează în limbaj elemente precum numele și adresele sau pentru a recunoaște persoane publice și entități cunoscute. Acest lucru ajută modelul să genereze răspunsuri mai exacte și adecvate contextului.

Luăm măsuri active pentru a limita prelucrarea informațiilor personale în timpul instruirii. De exemplu, excludem sursele care agregă cantități mari de date personale și instruim modelele noastre să evite răspunsurile la solicitări de informații private sau sensibile despre persoane.

Cum respectă dezvoltarea ChatGPT legile privind confidențialitatea?

Folosim informațiile de instruire în mod legal. Modelele noastre de bază susțin o gamă largă de aplicații benefice — de la crearea de conținut și asistență pentru clienți până la dezvoltare software, educație personalizată și cercetare științifică. Aceste capacități depind de date de instruire la scară largă. Informațiile folosite pentru a instrui modelele noastre sunt disponibile public și nu sunt menite să provoace prejudicii persoanelor. Ne bazăm colectarea și utilizarea informațiilor personale incluse în informațiile de instruire pe interese legitime în temeiul legilor privind confidențialitatea, precum GDPR, după cum se explică mai detaliat în Politica de confidențialitate. Am realizat o evaluare a impactului asupra protecției datelor pentru a ne asigura că aceste informații sunt colectate și folosite în mod legal și responsabil.

Răspundem la cererile de opoziție și la drepturi similare. Ca urmare a învățării limbajului, răspunsurile ChatGPT pot include uneori informații personale despre persoane ale căror informații personale apar de mai multe ori pe internetul public (de exemplu, persoane publice). Persoanele din anumite jurisdicții se pot opune prelucrării informațiilor lor personale de către modelele noastre sau pot face alte cereri privind drepturile persoanelor vizate prin Portalul de confidențialitate. De asemenea, vă puteți exercita aceste drepturi contactând dsar@openai.com.

Vă rugăm să rețineți că, în conformitate cu legile privind confidențialitatea, unele drepturi pot să nu fie absolute. Putem refuza o cerere dacă avem un motiv legal pentru a face acest lucru. Cu toate acestea, ne străduim să acordăm prioritate protecției informațiilor personale și să respectăm toate legile aplicabile privind confidențialitatea. Dacă considerați că nu am abordat în mod adecvat o problemă, aveți dreptul să depuneți o plângere la autoritatea locală de supraveghere.

Pentru mai multe informații despre practicile OpenAI privind informațiile personale pe care le colectăm de la dvs. sau despre dvs. atunci când utilizați site-ul, aplicațiile și serviciile noastre, consultați Politica de confidențialitate.

Cum sunt dezvoltate ChatGPT și modelele noastre fundamentale

Ce este ChatGPT și cum funcționează?

Ce tip de informații publice este folosit pentru a instrui ChatGPT?

Sunt folosite informații personale pentru a instrui ChatGPT?

Cum respectă dezvoltarea ChatGPT legile privind confidențialitatea?

A fost util acest articol?