Veríme v zodpovedný, iteratívny vývoj a nasadzovanie ako prostriedok na dosiahnutie bezpečnej všeobecnej umelej inteligencie. Predtým, ako model vôbec sprístupníme verejnosti, vykonávame značné množstvo testovania a zmierňovania rizík v oblasti bezpečnosti a zosúladenia a máme zavedené aj automatizované a ľudské systémy, ktoré pomáhajú odhaľovať problematický obsah objavujúci sa v našich službách pre jednotlivcov, ako sú ChatGPT a GPTs. Niektoré z týchto snáh uvádzame nižšie.
ChatGPT a ImageGen
Používame automatizované nástroje, napríklad internú verziu nášho /moderations API, na zisťovanie obsahu (príkazov, dokončení, nahraných súborov), ktorý môže byť škodlivý alebo porušovať naše pravidlá používania. Ak zistíme problematický obsah, zvyčajne vás buď upozorníme, že váš obsah môže porušovať naše pravidlá používania, alebo zabránime modelu odpovedať na váš príkaz. Môžeme tiež zabrániť zdieľaniu chatu s problematickým príkazom alebo dokončením. Vo veľmi obmedzenom súbore okolností môžeme za mimoriadne závažné správanie zablokovať aj váš účet.
Prijímame aj hlásenia od ľudí o problematickom obsahu v ChatGPT. Na kontrolu týchto hlásení používame kombináciu automatizovaných systémov a vyškoleného tímu odborníkov.
ChatGPT: Ak niekto zdieľa chat, o ktorom si myslíte, že obsahuje problematický obsah, môžete nám ho aj nahlásiť.
Ďalšie informácie o tom, ako nahlásiť obsah priamo v ChatGPT, nájdete v tomto článku.
GPTs
Používame aj automatizované nástroje, napríklad naše /moderation API, aby sme zistili, či je GPT potenciálne problematický. Ak zistíme problematický obsah spojený s GPT, prijmeme opatrenia, napríklad zabránime jeho distribúcii. Tvorca môže upraviť konfiguráciu GPT alebo API a odstrániť problematický obsah, prípadne sa môže proti rozhodnutiu odvolať prostredníctvom procesu v produkte. Vo veľmi obmedzenom súbore okolností môžeme za mimoriadne závažné správanie zablokovať aj účet tvorcu.
Prijímame aj hlásenia od ľudí o problematických GPT. Ak uvidíte GPT, o ktorom sa domnievate, že porušuje naše pravidlá používania alebo inak odráža problematický obsah, môžete nám ho aj nahlásiť. Na kontrolu týchto hlásení používame kombináciu automatizovaných systémov a vyškoleného tímu odborníkov.
