Ми віримо у відповідальну, ітеративну розробку й розгортання як спосіб досягнення безпечного штучного загального інтелекту. Перед тим як запускати модель для широкої публіки, ми проводимо значний обсяг тестування й пом’якшення ризиків щодо безпеки та узгодження, а також маємо автоматизовані й людські системи, які допомагають виявляти проблемний контент, що з’являється на наших сервісах для окремих користувачів, як-от ChatGPT і GPTs. Нижче ми описуємо деякі з цих зусиль.

ChatGPT та ImageGen

Ми використовуємо автоматизовані інструменти, як-от внутрішню версію нашого /moderations API, щоб виявляти контент (запити, відповіді, завантаження), який може бути шкідливим або порушувати наші Правила використання. Якщо ми виявляємо проблемний контент, зазвичай ми або попереджаємо вас, що ваш контент може порушувати наші правила використання, або блокуємо відповідь моделі на ваш запит. Ми також можемо заборонити поширення чату з проблемним запитом або відповіддю. У дуже обмеженому переліку випадків ми також можемо заблокувати ваш обліковий запис за кричущу поведінку.

Ми також приймаємо повідомлення від людей про проблемний контент у ChatGPT. Для розгляду таких повідомлень ми використовуємо поєднання автоматизованих систем і навченої команди експертів.

ChatGPT: якщо хтось поділився чатом, який, на вашу думку, містить проблемний контент, ви також можете повідомити нам про це.

Докладніше про те, як повідомити про контент безпосередньо в ChatGPT, див. у цій статті.

GPTs

Ми також використовуємо автоматизовані інструменти, як-от наш /moderation API, щоб з’ясувати, чи є GPT потенційно проблемним. Якщо ми виявимо проблемний контент, пов’язаний із GPT, ми вживемо заходів, наприклад не допустимо його поширення. Розробник може відредагувати конфігурацію GPT або API, щоб видалити проблемний контент, або оскаржити рішення через процес у продукті. У дуже обмеженому переліку випадків ми також можемо заблокувати обліковий запис розробника за кричущу поведінку.

Ми також приймаємо повідомлення від людей про проблемні GPT. Якщо ви бачите GPT, який, на вашу думку, порушує наші правила використання або іншим чином містить проблемний контент, ви також можете повідомити нам про це. Для розгляду таких повідомлень ми використовуємо поєднання автоматизованих систем і навченої команди експертів.

Як ми виявляємо проблемний контент у наших сервісах для користувачів

ChatGPT та ImageGen

GPTs

Чи була ця стаття корисною?