根据《加利福尼亚州民法典》第 3111 条规定的训练数据摘要

OpenAI 在加利福尼亚州提供可公开使用的生成式 AI 系统。我们依托多种数据来源开发此类系统，包括公开数据、与第三方合作获取的数据，以及用户、人类训练师和研究人员提供或产出的各类信息。我们还会使用合成数据来开发系统。

我们利用数据来帮助系统更好地理解人类语言与现实世界。这进而让我们的系统能够赋能人类创造力，推进科学探索与医学研究，助力数亿人改善日常生活。我们的系统依托海量数据集研发，其中包含数万亿个 token 的文本、图像、音频及视听类内容。

我们采用多类型数据开展系统研发，涵盖受版权保护的内容以及公有领域数据。我们会采取措施来减少训练数据集中的个人信息，但部分数据仍可能包含《加利福尼亚州民法典》第 1798.140 条定义的个人信息与汇总消费者信息。我们的用户可以通过隐私门户选择不将其内容用于训练，也可以请求从 ChatGPT 回复中移除某些个人信息。我们采用多种技术处理数据集，以此提升模型的运行表现与准确度。

我们大约在 2018 年开始收集开发系统所需的数据，目前仍在持续收集。我们于 2021 年首次将自有数据集投入系统开发工作。

有关系统开发的更多内容，可查阅我们的系统卡。

根据《加利福尼亚州民法典》第 3111 条规定的训练数据摘要

这篇文章对你有帮助吗？