| Poznámka : Uchovávání dat u některých služeb může být ovlivněno nedávným právním vývojem – další podrobnosti najdete v našem blogovém příspěvku . |
|---|
Základní modely OpenAI, včetně modelů, na kterých běží ChatGPT, jsou vyvíjeny pomocí tří hlavních zdrojů informací: (1) informací, které jsou veřejně dostupné na internetu, (2) informací, k nimž získáváme přístup ve spolupráci s třetími stranami, a (3) informací, které poskytují nebo generují naši uživatelé, lidští trenéři a výzkumníci.
Tento článek poskytuje přehled veřejně dostupných informací, které používáme při vývoji těchto modelů, a vysvětluje, jak tyto informace shromažďujeme a používáme v souladu se zákony na ochranu soukromí. Informace o tom, jak shromažďujeme a používáme údaje od uživatelů našich služeb, včetně toho, jak odmítnout používání konverzací v ChatGPT k výuce našich modelů, najdete v našich zásadách ochrany soukromí a v tomto článku centra nápovědy.
Co je ChatGPT a jak funguje?
ChatGPT je služba založená na umělé inteligenci, ke které můžete přistupovat přes internet. ChatGPT můžete používat k široké škále úkolů, včetně uspořádání a shrnutí informací, pomoci s překlady, analýzy nebo generování obrázků, podpory kreativity a nápadů a dalších každodenních činností. ChatGPT je navržen tak, aby rozuměl otázkám a pokynům uživatelů a odpovídal na ně tím, že se učí vzory z velkého množství informací, včetně textu, obrázků, zvuku a videa. Během tréninku model analyzuje vztahy v těchto datech – například jak se slova obvykle objevují společně v kontextu – a toto porozumění používá k předpovídání dalšího nejpravděpodobnějšího slova při generování odpovědi, vždy po jednom slově. Podobně se modely, které generují jiné formy obsahu, například obrázky, učí vzory v tom, jak spolu pixely souvisejí a jak souvisejí s přiřazenými popisky v tréninkových datech.
Například během procesu učení modelu (známého jako „trénink“) může mít model za úkol doplnit větu jako: „Místo aby odbočila doleva, odbočila ___.“ Na začátku tréninku jsou jeho odpovědi převážně náhodné. Jak však model zpracovává velký objem textu a učí se z něj, zlepšuje se v rozpoznávání vzorů a předpovídání nejpravděpodobnějšího dalšího slova. Tento proces se opakuje u milionů vět, aby se zpřesnilo jeho porozumění a zlepšila jeho přesnost.
Protože existuje několik možných způsobů, jak větu dokončit – například „Místo aby odbočila doleva, odbočila doprava“, „otočila se“ nebo „vrátila se“ – je v tom, jak model odpovídá, vrozený prvek náhodnosti. V důsledku toho může stejná otázka při různých dotazech vést k různým odpovědím.
Modely strojového učení se skládají z velkých sad čísel, známých jako „váhy“ nebo „parametry“, spolu s kódem, který tato čísla interpretuje a používá. Tyto modely neukládají ani neuchovávají kopie dat, na kterých jsou trénovány. Místo toho se při učení modelu hodnoty jeho parametrů mírně upravují tak, aby odrážely vzory, které rozpoznal. V předchozím příkladu se model zlepšil z předpovídání náhodných slov na přesnější předpovědi – nikoli tím, že by ukládal tréninkové věty, ale tím, že aktualizoval své interní parametry. Model neuchovává kopie vět, obrázků ani zvuku, které zpracovává během tréninku. ChatGPT „nekopíruje a nevkládá“ ze svých tréninkových dat – podobně jako učitel po rozsáhlém studiu dokáže vysvětlovat pojmy díky porozumění vztahům mezi myšlenkami, aniž by se původní materiály učil nazpaměť nebo je doslovně reprodukoval. Při generování odpovědi na požadavek uživatele model používá tyto naučené váhy k předpovídání a vytváření nového obsahu.
Jaký typ veřejných informací se používá k výuce ChatGPT?
U veřejně dostupného internetového obsahu používáme pouze informace, které jsou na internetu volně a otevřeně dostupné. Záměrně neshromažďujeme data ze zdrojů, o nichž víme, že jsou za platební bránou, ani z dark webu. Kromě toho používáme filtry k odstranění materiálů, z nichž nechceme, aby se naše modely učily, jako jsou nenávistné projevy, obsah pro dospělé, weby agregující osobní údaje a spam. Zbývající informace se poté používají k tréninku našich modelů.
Používají se k výuce ChatGPT osobní údaje?
Významná část online obsahu zahrnuje informace o lidech, takže naše tréninková data mohou náhodně obsahovat osobní údaje. Osobní údaje však záměrně neshromažďujeme za účelem tréninku našich modelů.
Tréninková data používáme k rozvoji schopností modelu – například predikce, uvažování a řešení problémů – nikoli k vytváření uživatelských profilů, kontaktování jednotlivců ani jako součást naší reklamy či marketingových aktivit.
V některých případech se modely mohou učit z osobních údajů, aby pochopily, jak v jazyce fungují prvky jako jména a adresy, nebo aby rozpoznaly veřejně známé osoby a dobře známé subjekty. To modelu pomáhá generovat přesnější a kontextově vhodnější odpovědi.
Podnikáme aktivní kroky k omezení zpracování osobních údajů během tréninku. Například vylučujeme zdroje, které agregují velké množství osobních údajů, a trénujeme naše modely tak, aby neodpovídaly na žádosti o soukromé nebo citlivé informace o jednotlivcích.
Jak je vývoj ChatGPT v souladu se zákony na ochranu soukromí?
Tréninkové informace používáme zákonným způsobem. Naše základní modely pohánějí širokou škálu prospěšných aplikací – od tvorby obsahu a zákaznické podpory až po vývoj softwaru, personalizované vzdělávání a vědecký výzkum. Tyto schopnosti závisí na tréninkových datech ve velkém objemu. Informace používané k tréninku našich modelů jsou veřejně dostupné a jejich účelem není způsobit jednotlivcům újmu. Shromažďování a používání osobních údajů obsažených v tréninkových informacích zakládáme na oprávněných zájmech podle zákonů na ochranu soukromí, jako je GDPR, jak je podrobněji vysvětleno v našich zásadách ochrany soukromí. Dokončili jsme posouzení vlivu na ochranu osobních údajů, které nám pomáhá zajistit, že tyto informace shromažďujeme a používáme zákonně a odpovědně.
Reagujeme na žádosti o námitku a podobná práva. V důsledku učení se jazyku mohou odpovědi ChatGPT někdy obsahovat osobní údaje o jednotlivcích, jejichž osobní údaje se na veřejném internetu objevují vícekrát (například veřejně známé osoby). Jednotlivci v některých jurisdikcích mohou vznést námitku proti zpracování svých osobních údajů našimi modely nebo uplatnit jiná práva subjektu údajů prostřednictvím našeho Portálu ochrany osobních údajů. Tato práva můžete uplatnit také tak, že se obrátíte na dsar@openai.com.
Upozorňujeme, že v souladu se zákony na ochranu soukromí nemusí být některá práva absolutní. Žádost můžeme odmítnout, pokud k tomu máme zákonný důvod. Snažíme se však upřednostňovat ochranu osobních údajů a dodržovat všechny příslušné zákony na ochranu soukromí. Pokud máte pocit, že jsme se problémem dostatečně nezabývali, máte právo podat stížnost u místního dozorového úřadu.
Další informace o postupech OpenAI týkajících se osobních údajů, které od vás nebo o vás shromažďujeme při používání našeho webu, aplikací a služeb, najdete v našich zásadách ochrany soukromí.
