Věříme v odpovědný, iterativní vývoj a nasazování jako cestu k dosažení bezpečné obecné umělé inteligence. Ještě před uvedením modelu pro veřejnost provádíme rozsáhlé testování bezpečnosti a sladění i zmírňující opatření a zároveň máme zavedené automatizované i lidské systémy, které pomáhají odhalovat problematický obsah objevující se v našich službách pro jednotlivce, jako jsou ChatGPT a GPTs. Níže popisujeme některé z těchto kroků.

ChatGPT a ImageGen

Používáme automatizované nástroje, například interní verzi našeho /moderations API, k detekci obsahu (promptů, dokončení, nahraných souborů), který může být škodlivý nebo porušovat naše zásady používání. Pokud zjistíme problematický obsah, obvykle vás buď upozorníme, že váš obsah může porušovat naše zásady používání, nebo modelu zablokujeme odpověď na váš prompt. Můžeme také zabránit sdílení chatu s problematickým promptem nebo dokončením. Ve velmi omezeném počtu případů můžeme za mimořádně závažné chování také zablokovat váš účet.

Přijímáme také hlášení problematického obsahu v ChatGPT od lidí. K posuzování těchto hlášení používáme kombinaci automatizovaných systémů a vyškoleného týmu odborníků.

ChatGPT: Pokud někdo sdílí chat, o kterém se domníváte, že obsahuje problematický obsah, můžete nám ho také nahlásit.

Další podrobnosti o tom, jak nahlásit obsah přímo v ChatGPT, najdete v tomto článku.

GPTs

Používáme také automatizované nástroje, jako je naše /moderation API, abychom zjistili, zda je GPT potenciálně problematický. Pokud zjistíme problematický obsah související s GPT, přijmeme opatření, například zabráníme jeho šíření. Tvůrce může upravit konfiguraci GPT nebo API tak, aby problematický obsah odstranil, nebo se může proti rozhodnutí odvolat prostřednictvím postupu přímo v produktu. Ve velmi omezeném počtu případů můžeme za mimořádně závažné chování zablokovat také účet tvůrce.

Přijímáme také hlášení problematických GPT od lidí. Pokud uvidíte GPT, o kterém se domníváte, že porušuje naše zásady používání nebo jinak vykazuje problematický obsah, můžete nám ho také nahlásit. K posuzování těchto hlášení používáme kombinaci automatizovaných systémů a vyškoleného týmu odborníků.

Jak identifikujeme problematický obsah v našich službách pro jednotlivce

ChatGPT a ImageGen

GPTs

Byl tento článek užitečný?