OpenAI
Táto stránka bola strojovo preložená. Prečítaj si pôvodný článok v angličtine.

Ako sa vyvíja ChatGPT a naše základné modely

Zistite viac o tom, ako vyvíjame naše modely a používame ich v produktoch, ako je ChatGPT

Aktualizované: yesterday

Poznámka: Uchovávanie údajov v prípade určitých služieb môže byť ovplyvnené nedávnym právnym vývojom – ďalšie podrobnosti nájdete v našom blogovom príspevku.

Základné modely OpenAI vrátane modelov, ktoré poháňajú ChatGPT, sa vyvíjajú pomocou troch hlavných zdrojov informácií: (1) informácií, ktoré sú verejne dostupné na internete, (2) informácií, ku ktorým získavame prístup v spolupráci s tretími stranami, a (3) informácií, ktoré poskytujú alebo generujú naši používatelia, ľudskí tréneri a výskumníci.

Tento článok poskytuje prehľad verejne dostupných informácií, ktoré používame na pomoc pri vývoji týchto modelov, a toho, ako tieto informácie zhromažďujeme a používame v súlade so zákonmi o ochrane súkromia. Ak chcete porozumieť tomu, ako zhromažďujeme a používame informácie od používateľov našich služieb vrátane toho, ako sa odhlásiť z používania konverzácií v ChatGPT na pomoc pri učení našich modelov, pozrite si naše zásady ochrany osobných údajov a tento článok centra pomoci.

Čo je ChatGPT a ako funguje?

ChatGPT je služba založená na umelej inteligencii, ku ktorej máte prístup cez internet. ChatGPT môžete používať na širokú škálu úloh vrátane organizovania a zhrnutia informácií, pomoci s prekladmi, analýzy alebo generovania obrázkov, podpory kreativity a nápadov a ďalších každodenných činností. ChatGPT je navrhnutý tak, aby rozumel otázkam a pokynom používateľov a odpovedal na ne tým, že sa učí vzorce z veľkého množstva informácií vrátane textu, obrázkov, zvuku a videa. Počas trénovania model analyzuje vzťahy v týchto údajoch – napríklad ako sa slová zvyčajne vyskytujú spolu v kontexte – a toto pochopenie používa na predpovedanie najpravdepodobnejšieho ďalšieho slova pri generovaní odpovede, vždy po jednom slove. Podobne sa modely, ktoré generujú iné formy obsahu, napríklad obrázky, učia vzorce toho, ako pixely súvisia medzi sebou a s priradenými popismi v tréningových údajoch.

Napríklad počas procesu učenia modelu (známeho ako „trénovanie“) môže model dostať úlohu dokončiť vetu, ako napríklad: „Namiesto toho, aby odbočila doľava, odbočila ___.” Na začiatku trénovania sú jeho odpovede prevažne náhodné. Keď však model spracúva veľké množstvo textu a učí sa z neho, zlepšuje sa v rozpoznávaní vzorcov a predpovedaní najpravdepodobnejšieho ďalšieho slova. Tento proces sa opakuje na miliónoch viet, aby sa spresnilo jeho porozumenie a zlepšila jeho presnosť.

Keďže existuje viacero pravdepodobných spôsobov, ako dokončiť vetu – napríklad „Namiesto toho, aby odbočila doľava, odbočila doprava“, „otočila sa“ alebo „vrátila sa“ – v tom, ako model odpovedá, je prítomný prirodzený prvok náhodnosti. V dôsledku toho môže tá istá otázka pri rôznych zadaniach priniesť rôzne odpovede.

Modely strojového učenia pozostávajú z veľkých súborov čísel, známych ako „váhy“ alebo „parametre“, spolu s kódom, ktorý tieto čísla interpretuje a používa. Tieto modely neukladajú ani neuchovávajú kópie údajov, na ktorých sú trénované. Namiesto toho sa počas učenia modelu hodnoty jeho parametrov mierne upravujú tak, aby odrážali vzorce, ktoré identifikoval. V predchádzajúcom príklade sa model zlepšil z predpovedania náhodných slov na presnejšie predpovede – nie ukladaním tréningových viet, ale aktualizáciou svojich interných parametrov. Model neuchováva kópie viet, obrázkov ani zvuku, ktoré spracúva počas trénovania. ChatGPT „nekopíruje a nevkladá“ zo svojich tréningových údajov – podobne ako učiteľ, ktorý po rozsiahlom štúdiu dokáže vysvetliť pojmy tým, že rozumie vzťahom medzi myšlienkami, bez toho, aby si pôvodné materiály zapamätal alebo ich doslovne reprodukoval. Pri generovaní odpovede na požiadavku používateľa model používa tieto naučené váhy na predpovedanie a vytváranie nového obsahu.

Aký typ verejných informácií sa používa na trénovanie ChatGPT?

V prípade verejne dostupného internetového obsahu používame iba informácie, ktoré sú na internete voľne a otvorene prístupné. Zámerne nezhromažďujeme údaje zo zdrojov, o ktorých je známe, že sú za platobnými bránami, ani z dark webu. Okrem toho používame filtre na odstránenie materiálu, z ktorého nechceme, aby sa naše modely učili, ako sú nenávistné prejavy, obsah pre dospelých, stránky zhromažďujúce osobné informácie a spam. Zostávajúce informácie sa potom používajú na trénovanie našich modelov.

Používajú sa osobné informácie na trénovanie ChatGPT?

Významná časť online obsahu zahŕňa informácie o ľuďoch, takže naše tréningové údaje môžu náhodne obsahovať osobné informácie. Osobné informácie však zámerne nezhromažďujeme na účely trénovania našich modelov.

Tréningové údaje používame na rozvoj schopností modelu – ako sú predpovedanie, uvažovanie a riešenie problémov – nie na vytváranie profilov používateľov, kontaktovanie jednotlivcov ani ako súčasť našej reklamy či marketingového úsilia.

V niektorých prípadoch sa modely môžu učiť z osobných informácií, aby pochopili, ako v jazyku fungujú prvky ako mená a adresy, alebo aby rozpoznávali verejne známe osoby a známe subjekty. To pomáha modelu generovať presnejšie a kontextovo vhodnejšie odpovede.

Podnikáme aktívne kroky na obmedzenie spracúvania osobných informácií počas trénovania. Napríklad vylučujeme zdroje, ktoré zhromažďujú veľké množstvá osobných údajov, a trénujeme naše modely tak, aby sa vyhýbali odpovediam na žiadosti o súkromné alebo citlivé informácie o jednotlivcoch.

Ako je vývoj ChatGPT v súlade so zákonmi o ochrane súkromia?

Tréningové informácie používame zákonne. Naše základné modely poháňajú širokú škálu prospešných aplikácií – od tvorby obsahu a zákazníckej podpory až po vývoj softvéru, personalizované vzdelávanie a vedecký výskum. Tieto schopnosti závisia od údajov používaných na rozsiahle trénovanie. Informácie používané na trénovanie našich modelov sú verejne dostupné a ich cieľom nie je spôsobovať ujmu jednotlivcom. Zhromažďovanie a používanie osobných informácií zahrnutých v tréningových informáciách zakladáme na oprávnených záujmoch podľa zákonov o ochrane súkromia, ako je GDPR, čo je podrobnejšie vysvetlené v našich zásadách ochrany osobných údajov. Dokončili sme posúdenie vplyvu na ochranu údajov, aby sme pomohli zabezpečiť, že tieto informácie zhromažďujeme a používame zákonne a zodpovedne.


Reagujeme na žiadosti o námietku a podobné práva. V dôsledku učenia sa jazyka môžu odpovede ChatGPT niekedy obsahovať osobné informácie o jednotlivcoch, ktorých osobné informácie sa na verejnom internete objavujú viackrát (napríklad o verejne známych osobách). Jednotlivci v určitých jurisdikciách môžu namietať proti spracúvaniu svojich osobných informácií našimi modelmi alebo podať iné žiadosti o uplatnenie práv dotknutej osoby prostredníctvom nášho Portálu ochrany súkromia. Tieto práva môžete uplatniť aj tak, že nás kontaktujete na adrese dsar@openai.com.

Upozorňujeme, že v súlade so zákonmi o ochrane súkromia niektoré práva nemusia byť absolútne. Žiadosť môžeme odmietnuť, ak na to máme zákonný dôvod. Snažíme sa však uprednostňovať ochranu osobných informácií a dodržiavať všetky platné zákony o ochrane súkromia. Ak máte pocit, že sme problém neriešili primerane, máte právo podať sťažnosť svojmu miestnemu dozornému orgánu.


Ďalšie informácie o postupoch OpenAI týkajúcich sa osobných informácií, ktoré od vás alebo o vás zhromažďujeme, keď používate našu webovú lokalitu, aplikácie a služby, nájdete v našich zásadách ochrany osobných údajov.

Bol tento článok užitočný?