Hiszünk a felelős, iteratív fejlesztésben és bevezetésben mint a biztonságos mesterséges általános intelligencia elérésének eszközében. Jelentős mennyiségű biztonsági és összehangolási tesztelést és kockázatcsökkentést végzünk, mielőtt egy modellt nyilvánosan elindítanánk, és automatizált, valamint emberi rendszereket is működtetünk, hogy segítsünk azonosítani az olyan problémás tartalmakat, amelyek az egyéneknek szóló szolgáltatásainkon, például a ChatGPT-ben és a GPT-kben jelennek meg. Az alábbiakban bemutatunk néhányat ezek közül az erőfeszítések közül.
ChatGPT, ImageGen és SORA
Automatizált eszközöket használunk, például a /moderations API belső verzióját, hogy észleljük azokat a tartalmakat (utasítások, kiegészítések, feltöltések), amelyek károsak lehetnek vagy sérthetik a Felhasználási szabályzatunkat. Ha problémás tartalmat észlelünk, jellemzően либо figyelmeztetjük, hogy a tartalma sértheti a felhasználási szabályzatunkat, либо megakadályozzuk, hogy a modell válaszoljon az utasítására. Azt is megakadályozhatjuk, hogy a problémás utasítást vagy kiegészítést tartalmazó csevegést megosszák. Nagyon korlátozott számú esetben súlyosan visszaélő magatartás miatt a fiókját is letilthatjuk.
Emberi bejelentéseket is fogadunk a ChatGPT-n és a SORA-n megjelenő problémás tartalmakról. E jelentések felülvizsgálatához automatizált rendszerek és képzett szakértői csapat kombinációját használjuk.
ChatGPT: Ha valaki megoszt egy csevegést, amelyről úgy gondolja, hogy problémás tartalmat tartalmaz, azt be is jelentheti nekünk.
SORA: Ha a hírfolyamában olyan videót vagy képet lát, amelyről úgy gondolja, hogy problémás tartalmat tartalmaz, azt bejelentheti nekünk.
A ChatGPT-ben vagy a SORA-ban közvetlenül történő tartalomjelentés részleteiről ebben a cikkben olvashat bővebben.
GPT-k
Automatizált eszközöket is használunk, például a /moderation API-nkat, hogy megállapítsuk, egy GPT potenciálisan problémás-e. Ha a GPT-hez kapcsolódó problémás tartalmat észlelünk, intézkedünk, például megakadályozzuk a terjesztését. A készítő szerkesztheti a GPT vagy az API konfigurációját a problémás tartalom eltávolítása érdekében, vagy a terméken belüli folyamaton keresztül fellebbezhet a döntés ellen. Nagyon korlátozott számú esetben súlyosan visszaélő magatartás miatt a készítő fiókját is letilthatjuk.
Emberi bejelentéseket is fogadunk a problémás GPT-kről. Ha olyan GPT-t lát, amelyről úgy gondolja, hogy sérti a felhasználási szabályzatunkat vagy más módon problémás tartalmat tükröz, azt be is jelentheti nekünk. E jelentések felülvizsgálatához automatizált rendszerek és képzett szakértői csapat kombinációját használjuk.
