私たちは、安全な汎用人工知能を実現する手段として、責任ある反復的な開発と展開を重視しています。モデルを一般公開する前に、相当量の安全性とアラインメントに関するテストおよび緩和策を実施しています。また、ChatGPTやGPTsなど、個人向けの当社サービス上に表示される問題のあるコンテンツの検知を支援するために、自動化システムと人による体制も整えています。以下では、その取り組みの一部をご紹介します。

ChatGPT、ImageGen、SORA

当社では、当社の/moderations APIの社内版などの自動化ツールを使用して、有害である可能性がある、または当社の利用ポリシーに違反する可能性があるコンテンツ（プロンプト、回答、アップロード）を検知します。問題のあるコンテンツを検知した場合、通常は、お客様のコンテンツが当社の利用ポリシーに違反している可能性がある旨の警告を表示するか、モデルがそのプロンプトに応答しないようにブロックします。また、問題のあるプロンプトや回答を含むチャットが共有されないようにする場合もあります。極めて限定的な状況では、悪質な行為によりお客様のアカウントを停止する場合もあります。

また、ChatGPTおよびSORA上の問題のあるコンテンツについて、人による報告も受け付けています。これらの報告の審査には、自動化システムと訓練を受けた専門チームを組み合わせて使用しています。

ChatGPT：問題のあるコンテンツが含まれていると思われるチャットが共有されている場合は、当社に報告することもできます。
SORA：フィード上に、問題のあるコンテンツが含まれていると思われる動画または画像が表示された場合は、当社に報告できます。

ChatGPTまたはSORAでコンテンツを直接報告する方法の詳細については、こちらの記事をご覧ください。

GPTs

当社では、GPTが潜在的に問題があるかどうかを確認するために、当社の/moderation APIなどの自動化ツールも使用しています。GPTに関連する問題のあるコンテンツを検知した場合は、配布を防止するなどの措置を講じます。ビルダーは、GPTまたはAPIの設定を編集して問題のあるコンテンツを削除することができ、また製品内のフローを通じて判断に異議申し立てを行うこともできます。極めて限定的な状況では、悪質な行為によりビルダーのアカウントを停止する場合もあります。

また、問題のあるGPTについて、人による報告も受け付けています。当社の利用ポリシーに違反している、または問題のあるコンテンツが含まれていると思われるGPTを見つけた場合は、当社に報告することもできます。これらの報告の審査には、自動化システムと訓練を受けた専門チームを組み合わせて使用しています。

個人向けサービスにおける問題のあるコンテンツの特定方法

ChatGPT、ImageGen、SORA

GPTs

この記事は役に立ちましたか？