我们坚持以负责任、迭代式的开发与部署，打造安全的通用人工智能。在向公众发布任何模型之前，我们都会开展大量安全与对齐测试并落实风险缓解方案；同时我们搭建了自动化 + 人工审核体系，用于识别 ChatGPT、各类 GPT 等个人服务中出现的问题内容。我们在下文概述了其中的部分相关举措。

ChatGPT 和 ImageGen

我们使用自动化工具，例如内部版 /moderation API，检测可能存在危害或违反使用政策的内容（提示、补全内容、上传文件）。如果我们检测到问题内容，通常会告知你该内容可能违反使用政策，或是拦截模型，使其不响应你的提示。我们也可能阻止包含问题提示或补全内容的对话对外分享。在在极少数情况下，我们也会因严重违规行为封禁你的账户。

我们也受理用户针对 ChatGPT 内问题内容的举报。我们会结合自动化系统与专业培训专家团队，审核所有举报内容。

ChatGPT：如果有人分享了你认为包含问题内容的聊天，你也可以向我们提交举报。

如需详细了解在 ChatGPT 内直接举报内容的完整操作，请参阅这篇文章。

GPTs

我们还会使用自动化工具，例如我们的 /moderation API，来判断一款 GPT 是否存在潜在问题。如果我们检测到与该 GPT 相关的问题内容，我们将采取处置措施，例如阻止该 GPT 分发传播。构建者可以对应 GPT 或 API 的配置以移除问题内容，也可以通过产品内流程针对处置决定发起申诉。在极少数情况下，我们也可能会因构建者极其恶劣的行为而封禁其账户。

我们也受理人工提交的、针对存在问题的 GPT 的举报。如果你发现某款 GPT 违反使用政策，或包含其他问题内容，也可向我们提交举报。我们会结合自动化系统与专业培训专家团队，审核所有举报内容。

我们如何在面向个人用户的服务中识别问题内容

ChatGPT 和 ImageGen

GPTs

这篇文章对你有帮助吗？