Zistite viac o tom, ako vyvíjame naše modely a používame ich v produktoch, ako je ChatGPT

Základné modely OpenAI vrátane modelov, na ktorých funguje ChatGPT, sa vyvíjajú pomocou troch hlavných zdrojov informácií: (1) informácií verejne dostupných na internete, (2) informácií, ku ktorým získavame prístup v spolupráci s tretími stranami, a (3) informácií, ktoré poskytujú alebo vytvárajú naši používatelia, ľudskí tréneri a výskumníci.

Vývoj základných modelov, aké sa používajú v ChatGPT, zahŕňa viacero fáz vrátane prípravy trénovacích údajov, predbežného trénovania a dotrénovania, ako aj priebežného hodnotenia a zlepšovania po nasadení. V týchto fázach sa môžu používať rôzne typy informácií na rôzne účely vrátane zlepšovania výkonu, spoľahlivosti a bezpečnosti modelov.

Tento článok prináša prehľad informácií, ktoré používame pri vývoji týchto modelov, spôsobu, akým tieto informácie zhromažďujeme a používame v súlade so zákonmi o ochrane súkromia, a ochranných opatrení, ktoré uplatňujeme počas celého procesu trénovania. Ak chcete porozumieť tomu, ako zhromažďujeme a používame informácie od používateľov našich služieb vrátane toho, ako odmietnuť používanie konverzácií v ChatGPT na zlepšovanie našich modelov, pozrite si naše zásady ochrany osobných údajov a tento článok Centra pomoci.

Čo je ChatGPT a ako funguje?

ChatGPT je služba založená na umelej inteligencii, ku ktorej máte prístup cez internet alebo aplikáciu. ChatGPT môžete používať na širokú škálu úloh vrátane organizovania a sumarizácie informácií, pomoci s prekladmi, podpory pri programovaní, výskume a analýze, vykonávania viacstupňových úloh naprieč nástrojmi, analýzy alebo generovania obrázkov, podnecovania tvorivosti a nápadov a ďalších každodenných činností. ChatGPT je navrhnutý tak, aby rozumel otázkam a pokynom používateľov a odpovedal na ne tým, že sa učí vzory z veľkého množstva informácií vrátane textu, obrázkov, zvuku a videa.

Počas trénovania model analyzuje vzťahy v týchto údajoch – napríklad ako sa slová zvyčajne vyskytujú spolu v kontexte – a toto pochopenie používa na predpovedanie ďalšieho najpravdepodobnejšieho slova pri generovaní odpovede, slovo po slove. Text sa môže prevádzať na menšie jednotky, niekedy nazývané „tokeny“, ktoré môžu predstavovať celé slová, časti slov alebo interpunkciu. Tokeny sú stavebnými prvkami textu, ktoré model spracúva. Podobne modely, ktoré generujú iné formy obsahu, napríklad obrázky, sa učia vzory v tom, ako pixely súvisia navzájom a s priradenými popismi v trénovacích údajoch.

Napríklad počas procesu učenia modelu (známeho ako „trénovanie“) môže mať model za úlohu doplniť vetu ako: „Namiesto toho, aby odbočila doľava, odbočila ___.“ Na začiatku trénovania sú jeho odpovede prevažne náhodné. Keď však model spracúva veľké množstvo textu a učí sa z neho, zlepšuje sa v rozpoznávaní vzorov a v predpovedaní najpravdepodobnejšieho ďalšieho slova. Tento proces sa opakuje na miliónoch viet, aby sa spresnilo jeho porozumenie a zlepšila presnosť.

Keďže existuje viacero prijateľných spôsobov, ako vetu doplniť – napríklad „Namiesto toho, aby odbočila doľava, odbočila doprava“, „otočila sa“ alebo „vrátila sa“ – v tom, ako model odpovedá, je prirodzene prítomný prvok náhodnosti. V dôsledku toho môže tá istá otázka pri rôznych dopytoch priniesť odlišné odpovede.

Modely strojového učenia pozostávajú z veľkých súborov čísel, známych ako „váhy“ alebo „parametre“, spolu s kódom, ktorý tieto čísla interpretuje a používa. Tieto modely neukladajú ani neuchovávajú kópie údajov, na ktorých sú trénované. Namiesto toho sa pri učení modelu hodnoty jeho parametrov mierne upravujú tak, aby odrážali vzory, ktoré identifikoval. V predchádzajúcom príklade sa model zlepšil z predpovedania náhodných slov na presnejšie predpovede – nie ukladaním trénovacích viet, ale aktualizáciou svojich interných parametrov. Model si neuchováva kópie viet, obrázkov ani zvuku, ktoré spracúva počas trénovania. ChatGPT zo svojich trénovacích údajov „nekopíruje a nevkladá“ – podobne ako učiteľ, ktorý po rozsiahlych štúdiách dokáže vysvetľovať pojmy vďaka pochopeniu vzťahov medzi myšlienkami bez toho, aby si pôvodné materiály pamätal naspamäť alebo ich reprodukoval doslovne. Keď model generuje odpoveď na požiadavku používateľa, používa tieto naučené váhy na predpovedanie a vytváranie nového obsahu.

Aký typ informácií sa používa na učenie ChatGPT?

Pri verejne dostupnom internetovom obsahu používame iba informácie, ktoré sú na internete voľne a otvorene dostupné. Môže ísť o verejne dostupné webové stránky, verejné fóra, verejné blogy, verejné príspevky a iný verejne dostupný online obsah. Ak sa napríklad zúčastníte na verejne dostupnom online diskusnom fóre alebo zverejníte verejný blog či iný príspevok, môžeme tento verejne prístupný obsah použiť na účely trénovania modelov. Podnikáme však kroky na obmedzenie spracúvania osobných údajov v našom procese trénovania. Pri zhromažďovaní verejne dostupného internetového obsahu zámerne nezískavame údaje zo zdrojov, o ktorých je známe, že sú za platobnými bránami, ani z dark webu. Okrem toho používame filtre na odstraňovanie materiálov, z ktorých nechceme, aby sa naše modely učili, ako sú nenávistné prejavy, obsah pre dospelých, stránky agregujúce osobné údaje a spam. Zostávajúce informácie sa potom používajú na trénovanie našich modelov.

Vlastníci webových stránok môžu spravovať, či sa k verejne dostupnému obsahu z ich stránok môže pristupovať na použitie pri trénovaní, pomocou štandardných webových ovládacích prvkov, ako je robots.txt, na zakázanie GPTBotu, ktorý môže prehľadávať verejne dostupný obsah s cieľom pomôcť trénovať naše modely. Poskytujeme usmernenia, ktoré vlastníkom webových stránok pomáhajú spravovať, ako ich stránky a obsah interagujú s našimi systémami AI.

Na trénovanie a zlepšovanie našich modelov používame aj informácie od partnerov z tretích strán. Môže ísť o informácie v súboroch údajov, ku ktorým pristupujeme na základe dohôd s tretími stranami, ako aj o informácie poskytované alebo vytvárané ľudskými trénermi a výskumníkmi tam, kde to umožňujú naše zásady a dohody. Pomáha to zlepšovať kvalitu, bezpečnosť a výkon našich modelov. Tieto zdroje môžu zahŕňať text, obrázky, zvuk, video alebo iné typy údajov v závislosti od súboru údajov.

V niektorých procesoch trénovania čoraz viac používame aj syntetické údaje. Môžeme napríklad používať informácie a naše modely na generovanie syntetických príkazov, viacjazyčných príkladov alebo iných trénovacích materiálov. Syntetické údaje môžu pomôcť zlepšovať výkon modelov, okrem iného dopĺňaním trénovacích údajov v oblastiach, kde sú údaje nedostatočné alebo nevyvážené, a môžu tiež podporovať prístupy k vývoju modelov, ktoré posilňujú ochranu súkromia.

Používajú sa osobné údaje na učenie ChatGPT?

Významná časť online obsahu zahŕňa informácie o ľuďoch, preto naše trénovacie údaje môžu náhodne obsahovať osobné údaje. Podnikáme však kroky na obmedzenie spracúvania osobných údajov v našom procese trénovania.

Trénovacie údaje používame na rozvoj schopností modelu – napríklad predpovedania, uvažovania a riešenia problémov – nie na vytváranie profilov jednotlivcov, ich kontaktovanie ani personalizáciu reklám pre nich.

V niektorých prípadoch sa modely môžu učiť z osobných údajov, aby pochopili, ako v jazyku fungujú prvky ako mená a adresy, alebo aby rozpoznávali verejné osoby a známe subjekty. Pomáha to modelu generovať presnejšie a kontextovo vhodnejšie odpovede.

Ako sú osobné údaje chránené počas trénovania?

Podnikáme aktívne kroky na obmedzenie spracúvania osobných údajov počas trénovania. Napríklad vylučujeme známe zdroje, ktoré agregujú veľké množstvá osobných údajov, používame filtrovanie na zníženie množstva osobných údajov v procese trénovania a podnikáme kroky na identifikáciu a odstránenie duplicitného obsahu, aby sme znížili riziko opakovania trénovacích údajov. Okrem toho trénujeme naše modely tak, aby sa vyhýbali odpovediam na žiadosti o súkromné alebo citlivé informácie o jednotlivcoch.

Ako dlho uchovávame informácie

Informácie v trénovacích údajoch uchovávame len tak dlho, ako je primerane potrebné na účely opísané v tomto článku a v našich zásadách ochrany osobných údajov, vrátane vývoja a zlepšovania našich modelov a súvisiacich účelov vedeckého výskumu. Uchovávanie podlieha pravidelnému preskúmavaniu, aby sa zabezpečilo, že je naďalej potrebné, a líši sa podľa typu informácií a spôsobu ich používania. Pri určovaní doby uchovávania zohľadňujeme faktory, ako je náš účel spracúvania informácií, množstvo, povaha a citlivosť informácií, potenciálne riziko ujmy vyplývajúce z neoprávneného použitia alebo zverejnenia a akékoľvek právne povinnosti, ktoré sa na nás vzťahujú.

Ako je vývoj ChatGPT v súlade so zákonmi o ochrane súkromia?

Trénovacie informácie používame zákonne. Naše základné modely poháňajú širokú škálu prospešných aplikácií – vrátane nástrojov prístupnosti, zákazníckej podpory, vývoja softvéru, personalizovaného vzdelávania a vedeckého výskumu. Tieto schopnosti závisia od rozsiahlych trénovacích údajov vrátane verejne dostupných informácií a informácií od partnerov z tretích strán. Počas celého procesu trénovania uplatňujeme ochranné opatrenia vrátane krokov navrhnutých na obmedzenie spracúvania osobných údajov v procese trénovania a na zmiernenie rizík, ako sa opisuje v tomto článku. Zhromažďovanie a používanie osobných údajov zahrnutých v trénovacích informáciách zakladáme na oprávnených záujmoch podľa zákonov o ochrane súkromia, ako je GDPR, vrátane trénovania a zlepšovania našich modelov pre používateľov a širšiu spoločnosť v súlade s naším poslaním zabezpečiť, aby všeobecná umelá inteligencia prinášala prospech všetkým, ako je podrobnejšie vysvetlené v našich zásadách ochrany osobných údajov. Dokončili sme posúdenie vplyvu na ochranu údajov, aby sme pomohli zabezpečiť, že tieto informácie zhromažďujeme a používame zákonne a zodpovedne.

Kedy sa informácie môžu zdieľať alebo prenášať

Osobné údaje „nepredávame“ a osobné údaje v trénovacích údajoch zverejňujeme iba za obmedzených okolností opísaných v našich zásadách ochrany osobných údajov. Informácie môžeme napríklad zdieľať s pridruženými spoločnosťami, dodávateľmi a poskytovateľmi služieb, ktorí podporujú vývoj, testovanie a zlepšovanie našich modelov. Informácie môžeme zverejniť aj v dobrej viere, že je takéto konanie nevyhnutné na splnenie zákonnej povinnosti alebo na ochranu našich práv, bezpečnosti a zabezpečenia, ako aj práv, bezpečnosti a zabezpečenia našich používateľov, zamestnancov alebo verejnosti, ako je opísané v našich zásadách ochrany osobných údajov.

Keďže naša infraštruktúra je globálna, osobné údaje v trénovacích údajoch sa môžu spracúvať v krajinách mimo EHP, Švajčiarska alebo Spojeného kráľovstva (vrátane Spojených štátov). V takých prípadoch uplatňujeme primerané ochranné opatrenia, ako sú rozhodnutia o primeranosti alebo štandardné zmluvné doložky, ako je opísané v našich zásadách ochrany osobných údajov.

Vaše práva a spôsob ich uplatnenia

Reagujeme na žiadosti o vznesenie námietky a podobné žiadosti o uplatnenie práv. V dôsledku učenia sa jazyka môžu odpovede ChatGPT niekedy obsahovať osobné údaje o jednotlivcoch, ktorých osobné údaje sa na verejnom internete vyskytujú viackrát (napríklad o verejných osobách). Jednotlivci v niektorých jurisdikciách môžu namietať proti spracúvaniu svojich osobných údajov našimi modelmi alebo podávať iné žiadosti týkajúce sa práv dotknutých osôb prostredníctvom nášho Portálu ochrany súkromia. Tieto práva môžete uplatniť aj kontaktovaním adresy privacy@openai.com.

Aby sme mohli vašu žiadosť posúdiť a odpovedať na ňu, poskytnite nám dostatok informácií na pochopenie toho, ktorých osobných údajov sa vaša žiadosť týka, napríklad vaše meno, relevantné adresy URL, konkrétne príklady výstupov modelu alebo iné údaje, ktoré pomôžu identifikovať problém. V niektorých prípadoch vás môžeme požiadať, aby ste overili svoju totožnosť alebo potvrdili, že sa informácie týkajú vás, skôr než budeme môcť konať. Ďalšie informácie o tom, ako tieto žiadosti podať, vrátane osvedčených postupov a spôsobu posudzovania žiadostí, nájdete v našom článku Centra pomoci o odstraňovaní osobných údajov z ChatGPT. Žiadosti posudzujeme v súlade s platnými zákonmi o ochrane súkromia a odpovedáme na ne v príslušných zákonných lehotách.

Upozorňujeme, že v súlade so zákonmi o ochrane súkromia nemusia byť niektoré práva absolútne. Napríklad nemusíme byť schopní vyhovieť žiadosti, ak nevieme overiť príslušné informácie, ak sa žiadosť netýka osobných údajov spracúvaných spoločnosťou OpenAI, ak sa uplatňuje výnimka alebo ak na to máme iný zákonný dôvod. Žiadosti sa posudzujú individuálne a môžu zahŕňať vyvažovanie práv na ochranu súkromia s inými dôležitými hľadiskami, ako je sloboda prejavu a verejný záujem.

Snažíme sa však uprednostňovať ochranu osobných údajov a dodržiavať všetky platné zákony o ochrane súkromia. Ak máte pocit, že sme sa nejakým problémom nezaoberali dostatočne, máte právo podať sťažnosť svojmu miestnemu dozornému orgánu.

Ďalšie informácie o postupoch spoločnosti OpenAI týkajúcich sa osobných údajov, ktoré od vás alebo o vás zhromažďujeme pri používaní našej webovej stránky, aplikácií a služieb, nájdete v našich zásadách ochrany osobných údajov.

Ako sa vyvíja ChatGPT a naše základné modely

Čo je ChatGPT a ako funguje?

Aký typ informácií sa používa na učenie ChatGPT?

Používajú sa osobné údaje na učenie ChatGPT?

Ako je vývoj ChatGPT v súlade so zákonmi o ochrane súkromia?

Bol tento článok užitočný?