我们坚持以负责任、迭代式的开发与部署,打造安全的通用人工智能。在向公众发布任何模型之前,我们都会开展大量安全与对齐测试并落实风险缓解方案;同时我们搭建了自动化 + 人工审核体系,用于识别 ChatGPT、各类 GPT 等个人服务中出现的问题内容。我们在下文概述了其中的部分相关举措。
ChatGPT 和 ImageGen
我们使用自动化工具,例如内部版 /moderation API,检测可能存在危害或违反使用政策的内容(提示、补全内容、上传文件)。如果我们检测到问题内容,通常会告知你该内容可能违反使用政策,或是拦截模型,使其不响应你的提示。我们也可能阻止包含问题提示或补全内容的对话对外分享。在在极少数情况下,我们也会因严重违规行为封禁你的账户。
我们也受理用户针对 ChatGPT 内问题内容的举报。我们会结合自动化系统与专业培训专家团队,审核所有举报内容。
ChatGPT:如果有人分享了你认为包含问题内容的聊天,你也可以向我们提交举报。
如需详细了解在 ChatGPT 内直接举报内容的完整操作,请参阅这篇文章。
GPTs
我们还会使用自动化工具,例如我们的 /moderation API,来判断一款 GPT 是否存在潜在问题。如果我们检测到与该 GPT 相关的问题内容,我们将采取处置措施,例如阻止该 GPT 分发传播。构建者可以对应 GPT 或 API 的配置以移除问题内容,也可以通过产品内流程针对处置决定发起申诉。在极少数情况下,我们也可能会因构建者极其恶劣的行为而封禁其账户。
我们也受理人工提交的、针对存在问题的 GPT 的举报。如果你发现某款 GPT 违反使用政策,或包含其他问题内容,也可向我们提交举报。我们会结合自动化系统与专业培训专家团队,审核所有举报内容。
