Tikime atsakingu, iteratyviu kūrimu ir diegimu kaip būdu siekti saugaus bendrojo dirbtinio intelekto. Dar prieš pristatydami modelį visuomenei atliekame daug saugos ir suderinimo testavimo bei rizikos mažinimo darbų, taip pat turime automatizuotas ir žmonių valdomas sistemas, padedančias aptikti probleminį turinį, kuris pasirodo mūsų individualiems naudotojams skirtose paslaugose, pvz., ChatGPT ir GPTs. Kai kurias iš šių pastangų aprašome toliau.

ChatGPT ir ImageGen

Naudojame automatizuotus įrankius, pvz., vidinę mūsų /moderations API versiją, kad aptiktume turinį (užklausas, atsakymus, įkėlimus), kuris gali būti žalingas arba pažeisti mūsų naudojimo taisykles. Jei aptinkame probleminį turinį, paprastai jus įspėjame, kad jūsų turinys gali pažeisti mūsų naudojimo taisykles, arba užblokuojame modelio atsakymą į jūsų užklausą. Taip pat galime neleisti bendrinti pokalbio, kuriame yra probleminė užklausa ar atsakymas. Itin ribotomis aplinkybėmis taip pat galime užblokuoti jūsų paskyrą už šiurkštų elgesį.

Taip pat priimame žmonių pateiktus pranešimus apie probleminį turinį ChatGPT. Šiems pranešimams peržiūrėti naudojame automatizuotų sistemų ir apmokytos ekspertų komandos derinį.

ChatGPT: jei kas nors pasidalija pokalbiu, kuriame, jūsų manymu, yra probleminio turinio, galite pranešti apie jį mums.

Daugiau informacijos, kaip pranešti apie turinį tiesiogiai ChatGPT, rasite šiame straipsnyje.

GPTs

Taip pat naudojame automatizuotus įrankius, pvz., mūsų /moderation API, kad nustatytume, ar GPT gali būti probleminis. Jei aptiksime su GPT susijusį probleminį turinį, imsimės veiksmų, pavyzdžiui, neleisime jo platinti. Kūrėjas gali redaguoti GPT arba API konfigūraciją, kad pašalintų probleminį turinį, arba apskųsti sprendimą per produkto sąsają. Itin ribotomis aplinkybėmis taip pat galime užblokuoti kūrėjo paskyrą už šiurkštų elgesį.

Taip pat priimame žmonių pateiktus pranešimus apie probleminius GPTs. Jei matote GPT, kuris, jūsų manymu, pažeidžia mūsų naudojimo taisykles arba kuriame kitaip atsispindi probleminis turinys, taip pat galite pranešti apie jį mums. Šiems pranešimams peržiūrėti naudojame automatizuotų sistemų ir apmokytos ekspertų komandos derinį.

Kaip nustatome probleminį turinį savo paslaugose asmenims

ChatGPT ir ImageGen

GPTs

Ar šis straipsnis buvo naudingas?