OpenAI nabízí ve státě Kalifornie veřejně dostupné systémy generativní AI. Tyto systémy vyvíjíme s využitím různých zdrojů dat, včetně veřejně dostupných dat, dat, k nimž získáváme přístup ve spolupráci s třetími stranami, a informací, které poskytují nebo generují naši uživatelé či lidští školitelé a výzkumníci. Naše systémy vyvíjíme také s využitím syntetických dat.
Data používáme k tomu, aby naše systémy lépe rozuměly lidskému jazyku a světu. To našim systémům následně umožňuje podporovat lidskou kreativitu, posouvat vědecké objevy a lékařský výzkum a pomáhat stovkám milionů lidí zlepšovat jejich každodenní život. Naše systémy jsou vyvíjeny na datových sadách obsahujících biliony tokenů textového, obrazového, zvukového a audiovizuálního obsahu.
K vývoji našich systémů používáme různorodý soubor dat, včetně dat, která mohou být chráněna autorským právem, a dat ve veřejné doméně. Přestože podnikáme kroky ke snížení množství osobních údajů v našich trénovacích datových sadách, některá naše data mohou obsahovat osobní údaje a souhrnné informace o spotřebitelích, jak jsou definovány v oddílu 1798.140 kalifornského občanského zákoníku. Naši uživatelé mají možnost prostřednictvím našeho Portálu ochrany osobních údajů odhlásit použití svého obsahu k trénování a také požádat o odstranění určitých osobních údajů z odpovědí ChatGPT. Ke zpracování našich datových sad používáme různé techniky, abychom zlepšili výkon a přesnost našich modelů.
Data pro vývoj našich systémů jsme začali shromažďovat přibližně v roce 2018 a pokračujeme v tom dodnes. Naše datové sady jsme k vývoji systémů poprvé použili v roce 2021.
Další informace o vývoji našich systémů najdete v našich kartách systému.
Souhrn tréninkových dat podle oddílu 3111 občanského zákoníku státu Kalifornie
Aktualizováno: 3 days ago
