Hiszünk a felelős, iteratív fejlesztésben és bevezetésben, mint a biztonságos mesterséges általános intelligencia elérésének eszközében. Jelentős mennyiségű biztonsági és igazítási tesztelést és kockázatcsökkentést végzünk, mielőtt egy modellt nyilvánosan elérhetővé tennénk, emellett automatizált és emberi rendszereink is vannak, amelyek segítenek észlelni a szolgáltatásainkon, például a ChatGPT-ben és a GPT-kben megjelenő problémás tartalmakat. Az alábbiakban felvázolunk néhányat ezek közül az erőfeszítések közül.

ChatGPT és ImageGen

Automatizált eszközöket használunk, például a /moderations API belső verzióját, hogy észleljük azokat a tartalmakat (utasításokat, válaszokat, feltöltéseket), amelyek károsak lehetnek, vagy sérthetik a Használati irányelveinket. Ha problémás tartalmat észlelünk, általában vagy figyelmeztetünk, hogy a tartalmad sértheti a használati irányelveinket, vagy megakadályozzuk, hogy a modell válaszoljon az utasításodra. Azt is megakadályozhatjuk, hogy a problémás utasítást vagy választ tartalmazó csevegést megosszák. Nagyon korlátozott számú esetben kirívó viselkedés miatt a fiókodat is letilthatjuk.

Emberi bejelentéseket is fogadunk a ChatGPT-n megjelenő problémás tartalmakról. Ezeket a bejelentéseket automatizált rendszerek és képzett szakértői csapat együttesével vizsgáljuk felül.

ChatGPT: Ha valaki olyan csevegést oszt meg, amely szerinted problémás tartalmat tartalmaz, akkor azt is jelentheted nekünk.

Ha többet szeretnél megtudni arról, hogyan jelenthetsz tartalmat közvetlenül a ChatGPT-ben, lásd ezt a cikket.

GPT-k

Automatizált eszközöket is használunk, például a /moderation API-t, hogy megállapítsuk, egy GPT potenciálisan problémás-e. Ha a GPT-hez kapcsolódó problémás tartalmat észlelünk, intézkedünk, például megakadályozzuk a terjesztését. A készítő szerkesztheti a GPT vagy az API konfigurációját a problémás tartalom eltávolításához, vagy fellebbezhet a döntés ellen egy terméken belüli folyamaton keresztül. Nagyon korlátozott számú esetben kirívó viselkedés miatt a készítő fiókját is letilthatjuk.

Emberi bejelentéseket is fogadunk a problémás GPT-kről. Ha olyan GPT-t látsz, amely szerinted sérti a használati irányelveinket, vagy más módon problémás tartalmat tükröz, akkor azt is jelentheted nekünk. Ezeket a bejelentéseket automatizált rendszerek és képzett szakértői csapat együttesével vizsgáljuk felül.

Hogyan azonosítjuk a problémás tartalmakat egyéni szolgáltatásainkon

ChatGPT és ImageGen

GPT-k

Hasznos volt ez a cikk?