Nous croyons au développement et au déploiement responsables et itératifs comme moyen d’atteindre une intelligence artificielle générale sécuritaire. Nous effectuons un travail considérable de test et d’atténuation en matière de sécurité et d’alignement avant de lancer un modèle auprès du public, et nous disposons également de systèmes automatisés et humains pour nous aider à détecter le contenu problématique qui apparaît sur nos services destinés aux particuliers, comme ChatGPT et les GPTs. Nous décrivons certains de ces efforts ci-dessous.

ChatGPT et ImageGen

Nous utilisons des outils automatisés, comme une version interne de notre API /moderations, pour détecter le contenu (invites, complétions, téléversements) qui pourrait être nuisible ou enfreindre nos politiques d’utilisation. Si nous détectons du contenu problématique, nous vous avertirons généralement que votre contenu pourrait enfreindre nos politiques d’utilisation ou nous empêcherons le modèle de répondre à votre invite. Nous pouvons également empêcher le partage de la conversation contenant l’invite ou la complétion problématique. Dans un nombre très limité de circonstances, nous pouvons aussi bannir votre compte en cas de comportement flagrant.

Nous acceptons également les signalements humains de contenu problématique sur ChatGPT. Nous utilisons une combinaison de systèmes automatisés et d’une équipe formée d’experts pour examiner ces signalements.

ChatGPT : si quelqu’un partage une conversation qui, selon vous, contient du contenu problématique, vous pouvez également nous la signaler.

Pour en savoir plus sur la façon de signaler du contenu directement dans ChatGPT, consultez cet article.

GPTs

Nous utilisons également des outils automatisés, comme notre API /moderation, pour déterminer si un GPT est potentiellement problématique. Si nous détectons du contenu problématique associé au GPT, nous prendrons des mesures, par exemple empêcher sa distribution. Le créateur peut modifier la configuration du GPT ou de l’API afin de supprimer le contenu problématique, ou il peut faire appel de la décision au moyen d’un flux intégré au produit. Dans un nombre très limité de circonstances, nous pouvons aussi bannir le compte du créateur en cas de comportement flagrant.

Nous acceptons également les signalements humains de GPT problématiques. Si vous voyez un GPT qui, selon vous, enfreint nos politiques d’utilisation ou reflète autrement du contenu problématique, vous pouvez également nous le signaler. Nous utilisons une combinaison de systèmes automatisés et d’une équipe formée d’experts pour examiner ces signalements.

Comment nous identifions le contenu problématique sur nos services pour les particuliers

ChatGPT et ImageGen

GPTs

Cet article vous a-t-il été utile?