Мы верим, что ответственная итеративная разработка и развертывание — это путь к достижению безопасного общего искусственного интеллекта. Мы проводим значительный объем тестирования и мер по снижению рисков в области безопасности и согласования, прежде чем выпустить модель в публичный доступ, а также используем автоматизированные системы и процессы с участием людей, которые помогают выявлять проблемный контент, появляющийся в наших сервисах для индивидуальных пользователей, таких как ChatGPT и GPT. Ниже мы изложим некоторые из этих усилий.

ChatGPT и ImageGen

Мы используем автоматизированные инструменты, например внутреннюю версию нашего /moderations API, для обнаружения контента (промптов, завершений, загруженных материалов), который может быть вредоносным или нарушать наши правила использования. Если мы обнаружим проблемный контент, мы обычно либо предупреждаем вас о том, что ваш контент может нарушать наши правила использования, либо блокируем ответ модели на ваш промпт. Мы также можем запретить распространение чата с проблемным промптом или сгенерированным ответом. В очень ограниченном числе случаев мы также можем заблокировать вашу учетную запись за абсолютно вопиющее поведение.

Мы также принимаем сообщения от пользователей о проблемном контенте в ChatGPT. Для проверки таких сообщений мы используем как автоматизированные системы, так и команду подготовленных экспертов.

ChatGPT: если кто-то поделится чатом, который, по вашему мнению, содержит проблемный контент, вы также можете сообщить нам об этом.

Подробнее о том, как пожаловаться на контент непосредственно в ChatGPT, см. в этой статье.

GPT

Мы также используем автоматизированные инструменты, такие как наш /moderation API, чтобы определить, является ли GPT потенциально проблемным. Если мы обнаружим проблемный контент, связанный с GPT, мы примем меры, например, запретим его распространение. Создатель может изменить конфигурацию GPT или API, чтобы удалить проблемный контент, либо обжаловать это решение через встроенный в продукт процесс. В крайне ограниченном числе случаев мы также можем заблокировать аккаунт создателя за абсолютно вопиющее поведение.

Мы также принимаем сообщения от пользователей о проблемных GPT. Если вы видите GPT, который, по вашему мнению, нарушает наши правила использования или иным образом содержит проблемный контент, вы также можете сообщить нам о нем. Для проверки таких сообщений мы используем как автоматизированные системы, так и команду подготовленных экспертов.

Как мы выявляем проблемный контент в наших сервисах для частных лиц

ChatGPT и ImageGen

GPT

Была ли эта статья полезной?