OpenAI는 안전한 범용 인공지능을 실현하기 위한 방법으로 책임감 있고 단계적인 개발 및 배포가 중요하다고 믿습니다. 모델을 공개하기 전에 광범위한 안전성 및 정렬 테스트와 완화 조치를 수행하며, ChatGPT 및 GPT 등 개인용 서비스에서 문제성 콘텐츠를 감지하기 위한 자동화 시스템과 인력 기반 시스템도 갖추고 있습니다. 아래에서 그러한 노력 중 일부를 소개합니다.

ChatGPT 및 ImageGen

당사는 유해하거나 사용 정책을 위반할 수 있는 콘텐츠(프롬프트, 완성, 업로드)를 감지하기 위해 /moderations API 내부 버전 등의 자동화 도구를 사용합니다. 문제가 있는 콘텐츠가 감지되면, 일반적으로 사용 정책 위반 가능성을 경고하거나 모델이 해당 프롬프트에 응답하지 못하도록 차단합니다. 문제가 있는 프롬프트 또는 완성 응답이 포함된 채팅의 공유를 차단할 수도 있습니다. 극히 제한적인 경우로, 중대한 위반 행위에 대해 계정을 이용 정지할 수도 있습니다.

또한 ChatGPT에서 문제가 되는 콘텐츠에 대한 사용자 신고도 접수합니다. 신고 내용은 자동화 시스템과 전문가 팀을 함께 활용해 검토합니다.

ChatGPT: 문제가 있는 콘텐츠가 포함된 채팅을 공유받은 경우 신고할 수 있습니다.

ChatGPT에서 콘텐츠를 직접 신고하는 방법에 대한 자세한 내용은 이 문서를 참조하세요.

GPT

OpenAI는 GPT에 문제가 있는지 확인하기 위해 /moderation API 등의 자동화 도구도 활용합니다. GPT와 관련된 문제성 콘텐츠가 감지되면 해당 GPT 배포 차단 등의 조치를 취합니다. 빌더는 GPT 또는 API 구성을 편집해 문제 콘텐츠를 제거하거나, 제품 내 절차를 통해 해당 결정에 이의를 제기할 수 있습니다. 극히 제한적인 경우로, 중대한 위반 행위에 대해 빌더의 계정을 이용 정지할 수도 있습니다.

문제가 있는 GPT에 대한 사용자 신고도 접수합니다. 사용 정책을 위반하거나 문제가 있는 콘텐츠가 포함되어 있다고 판단되는 GPT를 발견한 경우 신고할 수 있습니다. 신고 내용은 자동화 시스템과 전문가 팀을 함께 활용해 검토합니다.

OpenAI의 개인용 서비스에서 문제 콘텐츠를 식별하는 방법

ChatGPT 및 ImageGen

GPT

이 문서가 도움이 되었나요?