Poznámka: Uchovávání dat u některých služeb může být ovlivněno nedávným právním vývojem – další podrobnosti najdete v našem příspěvku na blogu.
Základní modely OpenAI, včetně modelů, na kterých běží ChatGPT, jsou vyvíjeny pomocí tří hlavních zdrojů informací: (1) informací, které jsou veřejně dostupné na internetu, (2) informací, k nimž získáváme přístup ve spolupráci s třetími stranami, a (3) informací, které poskytují nebo generují naši uživatelé, lidští trenéři a výzkumníci.
Tento článek poskytuje přehled veřejně dostupných informací, které používáme k vývoji těchto modelů, a toho, jak tyto informace shromažďujeme a používáme v souladu se zákony na ochranu soukromí. Chcete-li porozumět tomu, jak shromažďujeme a používáme informace od uživatelů našich služeb, včetně toho, jak se odhlásit z používání konverzací v ChatGPT k výuce našich modelů, přečtěte si prosím naše zásady ochrany soukromí a tento článek centra nápovědy.
Co je ChatGPT a jak funguje?
ChatGPT je služba založená na umělé inteligenci, ke které máte přístup přes internet. ChatGPT můžete používat k široké škále úkolů, včetně uspořádání a shrnutí informací, pomoci s překlady, analýzy nebo generování obrázků, podněcování kreativity a nápadů i dalších každodenních činností. ChatGPT je navržen tak, aby rozuměl otázkám a pokynům uživatelů a odpovídal na ně tím, že se učí vzorce z velkého množství informací, včetně textu, obrázků, zvuku a videa. Během tréninku model analyzuje vztahy v těchto datech – například jak se slova obvykle objevují společně v kontextu – a toto porozumění využívá k předpovědi dalšího nejpravděpodobnějšího slova při generování odpovědi, slovo po slovu. Podobně se modely, které generují jiné formy obsahu, například obrázky, učí vzorce v tom, jak spolu pixely souvisejí navzájem a s přidruženými popisky v tréninkových datech.
Například během procesu učení modelu (známého jako „trénink“) může mít model za úkol doplnit větu jako: „Místo doleva odbočila ___.“ Na začátku tréninku jsou jeho odpovědi převážně náhodné. Jak však model zpracovává velký objem textu a učí se z něj, zlepšuje se v rozpoznávání vzorců a předpovídání nejpravděpodobnějšího dalšího slova. Tento proces se opakuje na milionech vět, aby se zpřesnilo jeho porozumění a zlepšila jeho přesnost.
Protože existuje více pravděpodobných způsobů, jak větu dokončit – například „Místo doleva odbočila doprava“, „otočila se“ nebo „vrátila se“ – je ve způsobu, jakým model odpovídá, přítomen inherentní prvek náhodnosti. V důsledku toho může stejná otázka při různých dotazech přinést různé odpovědi.
Modely strojového učení se skládají z velkých souborů čísel, známých jako „váhy“ nebo „parametry“, a z kódu, který tato čísla interpretuje a používá. Tyto modely neukládají ani neuchovávají kopie dat, na kterých jsou trénovány. Místo toho se s tím, jak se model učí, hodnoty jeho parametrů mírně upravují tak, aby odrážely vzorce, které identifikoval. V dřívějším příkladu se model zlepšil z předpovídání náhodných slov na přesnější předpovědi – ne tím, že by ukládal tréninkové věty, ale aktualizací svých interních parametrů. Model neuchovává kopie vět, obrázků ani zvuku, které během tréninku zpracovává. ChatGPT ze svých tréninkových dat „nekopíruje a nevkládá“ – podobně jako učitel, který po rozsáhlém studiu dokáže vysvětlit pojmy díky porozumění vztahům mezi myšlenkami, aniž by si původní materiály pamatoval nazpaměť nebo je doslovně reprodukoval. Při generování odpovědi na žádost uživatele model používá tyto naučené váhy k předpovídání a vytváření nového obsahu.
Jaký typ veřejných informací se používá k výuce ChatGPT?
U veřejně dostupného internetového obsahu používáme pouze informace, které jsou na internetu volně a otevřeně přístupné. Záměrně neshromažďujeme data ze zdrojů, o nichž je známo, že jsou za platebními branami, ani z dark webu. Kromě toho používáme filtry k odstranění materiálů, z nichž nechceme, aby se naše modely učily, jako jsou nenávistné projevy, obsah pro dospělé, weby agregující osobní údaje a spam. Zbývající informace se poté používají k tréninku našich modelů.
Používají se osobní údaje k výuce ChatGPT?
Významná část online obsahu zahrnuje informace o lidech, takže naše tréninková data mohou náhodně obsahovat osobní údaje. Osobní údaje však záměrně neshromažďujeme za účelem tréninku našich modelů.
Tréninková data používáme k rozvoji schopností modelu – například predikce, uvažování a řešení problémů – nikoli k vytváření uživatelských profilů, kontaktování jednotlivců nebo jako součást našeho reklamního či marketingového úsilí.
V některých případech se modely mohou učit z osobních údajů, aby pochopily, jak prvky jako jména a adresy fungují v jazyce, nebo aby rozpoznávaly veřejně známé osoby a známé subjekty. To pomáhá modelu generovat přesnější a kontextově vhodnější odpovědi.
Podnikáme aktivní kroky k omezení zpracování osobních údajů během tréninku. Například vylučujeme zdroje, které agregují velké množství osobních údajů, a naše modely trénujeme tak, aby se vyhýbaly odpovědím na žádosti o soukromé nebo citlivé informace o jednotlivcích.
Jak je vývoj ChatGPT v souladu se zákony na ochranu soukromí?
Tréninkové informace používáme zákonným způsobem. Naše základní modely pohánějí širokou škálu prospěšných aplikací – od tvorby obsahu a zákaznické podpory až po vývoj softwaru, personalizované vzdělávání a vědecký výzkum. Tyto schopnosti závisejí na datech pro trénink na velkém objemu. Informace používané k tréninku našich modelů jsou veřejně dostupné a nejsou určeny k tomu, aby jednotlivcům způsobovaly újmu. Shromažďování a používání osobních údajů obsažených v tréninkových informacích zakládáme na oprávněných zájmech podle zákonů na ochranu soukromí, jako je GDPR, jak je podrobněji vysvětleno v našich zásadách ochrany soukromí. Dokončili jsme posouzení vlivu na ochranu osobních údajů, abychom pomohli zajistit, že tyto informace shromažďujeme a používáme zákonně a odpovědně.
Reagujeme na námitky a žádosti o podobná práva. V důsledku učení jazyka mohou odpovědi ChatGPT někdy obsahovat osobní údaje o jednotlivcích, jejichž osobní údaje se na veřejném internetu objevují vícekrát (například o veřejně známých osobách). Jednotlivci v určitých jurisdikcích mohou vznést námitku proti zpracování svých osobních údajů našimi modely nebo podat jiné žádosti týkající se práv subjektů údajů prostřednictvím našeho Portálu ochrany osobních údajů. Tato práva můžete také uplatnit tak, že nás kontaktujete na adrese dsar@openai.com.
Upozorňujeme, že v souladu se zákony na ochranu soukromí nemusí být některá práva absolutní. Žádost můžeme odmítnout, pokud k tomu máme zákonný důvod. Snažíme se však upřednostňovat ochranu osobních údajů a dodržovat všechny platné zákony na ochranu soukromí. Pokud máte pocit, že jsme se určitou záležitostí dostatečně nezabývali, máte právo podat stížnost u svého místního dozorového úřadu.
Další informace o postupech OpenAI týkajících se osobních údajů, které shromažďujeme od vás nebo o vás, když používáte naše webové stránky, aplikace a služby, najdete v našich zásadách ochrany soukromí.
