OpenAI 在加利福尼亚州提供可公开使用的生成式 AI 系统。我们依托多种数据来源开发此类系统,包括公开数据、与第三方合作获取的数据,以及用户、人类训练师和研究人员提供或产出的各类信息。我们还会使用合成数据来开发系统。
我们利用数据来帮助系统更好地理解人类语言与现实世界。这进而让我们的系统能够赋能人类创造力,推进科学探索与医学研究,助力数亿人改善日常生活。我们的系统依托海量数据集研发,其中包含数万亿个 token 的文本、图像、音频及视听类内容。
我们采用多类型数据开展系统研发,涵盖受版权保护的内容以及公有领域数据。我们会采取措施来减少训练数据集中的个人信息,但部分数据仍可能包含《加利福尼亚州民法典》第 1798.140 条定义的个人信息与汇总消费者信息。你可以通过隐私门户选择不将自身内容用于训练,也可以申请从 ChatGPT 回复中移除指定个人信息。我们采用多种技术处理数据集,以此提升模型的运行表现与准确度。
我们大约在 2018 年开始收集开发系统所需的数据,目前仍在持续收集。我们于 2021 年首次将自有数据集投入系统开发工作。
有关系统开发的更多内容,可查阅我们的系统卡。
根据《加利福尼亚州民法典》第 3111 条规定的训练数据摘要
更新于:22 hours ago
