저희는 안전한 범용 인공지능(AGI)을 달성하기 위한 방법으로 책임감 있고 반복적인 개발과 배포를 지향합니다. 모델을 대중에 공개하기 전에 안전 및 정렬 관련 테스트와 완화 조치를 상당히 많이 수행하며, ChatGPT 및 GPTs와 같은 개인용 서비스에 나타나는 문제가 될 수 있는 콘텐츠를 감지하는 데 도움이 되도록 자동화 시스템과 사람 기반 시스템도 갖추고 있습니다. 아래에서 그중 일부 노력을 설명합니다.
ChatGPT, ImageGen 및 SORA
저희는 /moderations API의 내부 버전과 같은 자동화 도구를 사용해 유해할 수 있거나 사용 정책을 위반할 수 있는 콘텐츠(프롬프트, 응답, 업로드)를 감지합니다. 문제가 될 수 있는 콘텐츠를 감지하면, 일반적으로 콘텐츠가 사용 정책을 위반할 수 있음을 경고하거나 모델이 해당 프롬프트에 응답하지 못하도록 차단합니다. 또한 문제가 있는 프롬프트 또는 응답이 포함된 채팅이 공유되지 않도록 할 수도 있습니다. 매우 제한적인 경우에는 중대한 위반 행위로 인해 계정을 정지할 수도 있습니다.
또한 ChatGPT와 SORA에서 문제가 될 수 있는 콘텐츠에 대한 사람의 신고도 접수합니다. 저희는 자동화 시스템과 훈련된 전문가 팀을 결합해 이러한 신고를 검토합니다.
ChatGPT: 문제가 될 수 있는 콘텐츠가 포함되어 있다고 생각되는 채팅이 누군가에 의해 공유된 경우, 저희에게 신고할 수도 있습니다.
SORA: 피드에서 문제가 될 수 있는 콘텐츠가 포함되어 있다고 생각되는 동영상 또는 이미지를 발견하면 저희에게 신고할 수 있습니다.
ChatGPT 또는 SORA에서 콘텐츠를 직접 신고하는 방법에 대한 자세한 내용은 이 문서를 참고하세요.
GPTs
또한 저희는 /moderation API와 같은 자동화 도구를 사용해 GPT에 문제가 있을 가능성이 있는지 확인합니다. GPT와 관련된 문제가 될 수 있는 콘텐츠를 감지하면 배포를 제한하는 등 조치를 취합니다. 제작자는 GPT 또는 API 구성을 수정해 문제 콘텐츠를 제거할 수 있으며, 제품 내 절차를 통해 해당 결정에 이의를 제기할 수도 있습니다. 매우 제한적인 경우에는 중대한 위반 행위로 인해 제작자 계정을 정지할 수도 있습니다.
또한 문제가 될 수 있는 GPT에 대한 사람의 신고도 접수합니다. 사용 정책을 위반한다고 생각되거나 그 밖에 문제가 될 수 있는 콘텐츠를 반영하는 GPT를 발견하면 저희에게 신고할 수도 있습니다. 저희는 자동화 시스템과 훈련된 전문가 팀을 결합해 이러한 신고를 검토합니다.
