Megjegyzés: Bizonyos szolgáltatások adatmegőrzését a közelmúltbeli jogi fejlemények befolyásolhatják – további részletekért kérjük, tekintse meg blogbejegyzésünket.
Az OpenAI alapmodelljeit, köztük a ChatGPT-t működtető modelleket három fő információforrás felhasználásával fejlesztjük: (1) az interneten nyilvánosan elérhető információk, (2) olyan információk, amelyekhez harmadik felekkel együttműködve férünk hozzá, valamint (3) olyan információk, amelyeket felhasználóink, emberi betanítóink és kutatóink adnak meg vagy hoznak létre.
Ez a cikk áttekintést nyújt azokról a nyilvánosan elérhető információkról, amelyeket e modellek fejlesztéséhez használunk, valamint arról, hogyan gyűjtjük és használjuk fel ezeket az információkat az adatvédelmi jogszabályoknak megfelelően. Ha szeretné megérteni, hogyan gyűjtjük és használjuk fel a szolgáltatásaink felhasználóitól származó információkat, beleértve azt is, hogyan tilthatja meg, hogy ChatGPT-beszélgetéseit modelljeink tanításának segítésére használjuk, kérjük, tekintse meg Adatvédelmi irányelveinket és ezt a súgóközpont-cikket.
Mi az a ChatGPT, és hogyan működik?
A ChatGPT egy mesterséges intelligencián alapuló szolgáltatás, amelyet az interneten keresztül érhet el. A ChatGPT számos feladatra használható, többek között információk rendszerezésére és összefoglalására, fordítások segítésére, képek elemzésére vagy létrehozására, kreativitás és ötletek ösztönzésére, valamint más mindennapi tevékenységekre. A ChatGPT-t úgy tervezték, hogy megértse a felhasználói kérdéseket és utasításokat, és válaszoljon rájuk azáltal, hogy nagy mennyiségű információból – többek között szövegekből, képekből, hanganyagokból és videókból – mintázatokat tanul. A betanítás során a modell elemzi az adatokon belüli kapcsolatokat – például azt, hogy a szavak általában hogyan jelennek meg együtt egy adott kontextusban –, és ezt a tudást használja fel arra, hogy válasz generálásakor szóról szóra megjósolja a következő legvalószínűbb szót. Hasonlóképpen, a más típusú tartalmakat, például képeket létrehozó modellek mintázatokat tanulnak meg abból, hogy a pixelek hogyan kapcsolódnak egymáshoz és a betanítási adatokban szereplő kapcsolódó képaláírásokhoz.
Például a modell tanulási folyamata (azaz „betanítása”) során a modell feladatul kaphatja egy ilyen mondat kiegészítését: „Ahelyett, hogy balra fordult volna, ___.” A betanítás elején a válaszai nagyrészt véletlenszerűek. Ahogy azonban a modell nagy mennyiségű szöveget dolgoz fel és tanul belőle, egyre jobban felismeri a mintázatokat, és pontosabban jósolja meg a legvalószínűbb következő szót. Ez a folyamat mondatok millióin ismétlődik meg, hogy finomítsa a modell megértését és javítsa a pontosságát.
Mivel egy mondatot több elfogadható módon is ki lehet egészíteni – például: „Ahelyett, hogy balra fordult volna, jobbra fordult”, „megfordult” vagy „visszafordult” –, a modell válaszaiban eleve jelen van bizonyos fokú véletlenszerűség. Ennek eredményeként ugyanaz a kérdés különböző lekérdezések esetén eltérő válaszokat adhat.
A gépi tanulási modellek nagy számhalmazokból, úgynevezett „súlyokból” vagy „paraméterekből”, valamint olyan kódból állnak, amely értelmezi és felhasználja ezeket a számokat. Ezek a modellek nem tárolják és nem őrzik meg a betanításukhoz használt adatok másolatait. Ehelyett, ahogy a modell tanul, a paramétereinek értékei kis mértékben módosulnak, hogy tükrözzék az általa azonosított mintázatokat. A korábbi példában a modell a véletlenszerű szavak előrejelzésétől a pontosabb előrejelzésekig jutott el – nem úgy, hogy eltárolta a betanítási mondatokat, hanem úgy, hogy frissítette a belső paramétereit. A modell nem őrzi meg a betanítás során feldolgozott mondatok, képek vagy hanganyagok másolatait. A ChatGPT nem „másol és beilleszt” a betanítási adataiból – hasonlóan ahhoz, ahogyan egy tanár hosszú tanulás után úgy tud fogalmakat elmagyarázni, hogy megérti az ötletek közötti kapcsolatokat, anélkül hogy szó szerint memorizálná vagy reprodukálná az eredeti anyagokat. Amikor egy felhasználói kérésre választ generál, a modell ezeket a megtanult súlyokat használja fel új tartalom előrejelzésére és létrehozására.
Milyen típusú nyilvános információkat használunk a ChatGPT tanításához?
A nyilvánosan elérhető internetes tartalmak esetében kizárólag olyan információkat használunk, amelyek szabadon és nyíltan hozzáférhetők az interneten. Nem gyűjtünk szándékosan adatokat olyan forrásokból, amelyekről ismert, hogy fizetőfal mögött vannak, illetve a dark webről. Emellett szűrőket alkalmazunk azoknak az anyagoknak az eltávolítására, amelyekből nem szeretnénk, hogy modelljeink tanuljanak, például a gyűlöletbeszéd, a felnőtt tartalmak, a személyes adatokat összesítő webhelyek és a spam eltávolítására. A fennmaradó információkat ezután modelljeink betanítására használjuk.
Használunk személyes adatokat a ChatGPT tanításához?
Az online tartalmak jelentős része emberekkel kapcsolatos információkat tartalmaz, ezért betanítási adataink mellékesen személyes adatokat is tartalmazhatnak. Ugyanakkor nem gyűjtünk szándékosan személyes adatokat modelljeink betanítása céljából.
A betanítási adatokat a modell képességeinek fejlesztésére használjuk – például előrejelzésre, érvelésre és problémamegoldásra –, nem pedig felhasználói profilok létrehozására, egyének megkeresésére, illetve hirdetési vagy marketingtevékenységeink részeként.
Bizonyos esetekben a modellek személyes adatokból tanulhatnak annak megértése érdekében, hogy az olyan elemek, mint a nevek és címek hogyan működnek a nyelvben, illetve hogy felismerjék a közszereplőket és a jól ismert entitásokat. Ez segít a modellnek pontosabb és a kontextushoz jobban illeszkedő válaszokat generálni.
Aktív lépéseket teszünk a személyes adatok betanítás során történő kezelésének korlátozására. Például kizárjuk azokat a forrásokat, amelyek nagy mennyiségű személyes adatot összesítenek, és úgy tanítjuk modelljeinket, hogy kerüljék az egyénekkel kapcsolatos magánjellegű vagy érzékeny információkra vonatkozó kérések megválaszolását.
Hogyan felel meg a ChatGPT fejlesztése az adatvédelmi jogszabályoknak?
A betanítási információkat jogszerűen használjuk fel. Alapmodelljeink számos hasznos alkalmazást működtetnek – a tartalomkészítéstől és az ügyféltámogatástól kezdve a szoftverfejlesztésen és a személyre szabott oktatáson át a tudományos kutatásig. Ezek a képességek nagy léptékű betanítási adatoktól függenek. A modelljeink betanításához használt információk nyilvánosan elérhetők, és nem az a céljuk, hogy kárt okozzanak egyéneknek. A betanítási információkban szereplő személyes adatok gyűjtését és felhasználását az adatvédelmi jogszabályok, például a GDPR szerinti jogos érdekekre alapozzuk, amint azt Adatvédelmi irányelveinkben részletesebben is ismertetjük. Adatvédelmi hatásvizsgálatot végeztünk annak elősegítésére, hogy ezeket az információkat jogszerűen és felelősen gyűjtsük és használjuk fel.
Válaszolunk a tiltakozási kérelmekre és a hasonló jogok gyakorlására irányuló kérelmekre. A nyelv megtanulásának eredményeként a ChatGPT válaszai néha személyes adatokat tartalmazhatnak olyan személyekről, akiknek a személyes adatai többször is megjelennek a nyilvános interneten (például közszereplők esetében). Bizonyos joghatóságokban az egyének tiltakozhatnak személyes adataik modelljeink általi kezelése ellen, vagy más érintetti jogokkal kapcsolatos kérelmeket nyújthatnak be Adatvédelmi portálunkon keresztül. Ezeket a jogokat úgy is gyakorolhatja, hogy kapcsolatba lép velünk a következő címen: dsar@openai.com.
Kérjük, vegye figyelembe, hogy az adatvédelmi jogszabályoknak megfelelően egyes jogok nem feltétlenül abszolútak. Elutasíthatunk egy kérelmet, ha jogszerű indokunk van erre. Ugyanakkor törekszünk arra, hogy elsőbbséget adjunk a személyes adatok védelmének, és betartsunk minden alkalmazandó adatvédelmi jogszabályt. Ha úgy érzi, hogy nem foglalkoztunk megfelelően egy problémával, joga van panaszt tenni a helyi felügyeleti hatóságnál.
Ha további információt szeretne kapni az OpenAI azon gyakorlatáról, amely az Öntől vagy Önről webhelyünk, alkalmazásaink és szolgáltatásaink használata során gyűjtött személyes adatokra vonatkozik, kérjük, tekintse meg Adatvédelmi irányelveinket.
