Nous sommes convaincus qu'un développement et un déploiement responsables et itératifs constituent un moyen de parvenir à une intelligence artificielle générale sûre. Nous effectuons un nombre considérable de tests et de mesures d'atténuation en matière de sécurité et d'alignement avant même de lancer un modèle auprès du public, et nous disposons également de systèmes automatisés et humains pour aider à détecter les contenus problématiques qui apparaissent sur nos services destinés aux particuliers, tels que ChatGPT et les GPTs. Nous présentons certaines de ces initiatives ci-dessous.

ChatGPT et ImageGen

Nous utilisons des outils automatisés, tels qu'une version interne de notre API /moderations, pour détecter les contenus (prompts, complétions, téléversements) susceptibles d'être préjudiciables ou d'enfreindre nos politiques d'utilisation. Si nous détectons du contenu problématique, nous vous avertirons généralement que votre contenu est susceptible d'enfreindre nos politiques d'utilisation, ou nous empêcherons le modèle de répondre à votre prompt. Nous pouvons également empêcher que la conversation contenant le prompt ou la complétion problématique soit partagée. Dans un nombre très limité de cas, nous pouvons également bannir votre compte en cas de comportement particulièrement grave.

Nous acceptons également les signalements effectués par des personnes concernant du contenu problématique sur ChatGPT. Nous utilisons à la fois des systèmes automatisés et une équipe d'experts formés pour examiner ces signalements.

ChatGPT : si une personne partage une conversation qui, selon vous, contient du contenu problématique, vous pouvez également nous la signaler.

Pour en savoir plus sur la façon de signaler du contenu directement dans ChatGPT, consultez cet article.

GPT

Nous utilisons également des outils automatisés tels que notre API/modération pour déterminer si un GPT est potentiellement problématique. Si nous détectons du contenu problématique associé au GPT, nous prendrons des mesures, par exemple en empêchant sa diffusion. Le créateur peut modifier la configuration du GPT ou de l'API afin de supprimer le contenu problématique, ou faire appel de la décision via un parcours intégré au produit. Dans un nombre très limité de cas, nous pouvons également bannir le compte du créateur en cas de comportement particulièrement grave.

Nous acceptons également les signalements humains concernant des GPT problématiques. Si vous voyez un GPT qui, selon vous, enfreint nos politiques d'utilisation ou présente du contenu problématique, vous pouvez également nous le signaler. Nous utilisons à la fois des systèmes automatisés et une équipe d'experts formés pour examiner ces signalements.

Comment nous identifions les contenus problématiques sur nos services destinés aux particuliers

ChatGPT et ImageGen

GPT

Cet article vous a-t-il été utile ?