OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

A ChatGPT és alapmodelljeink fejlesztése

Tudjon meg többet arról, hogyan fejlesztjük modelljeinket, és hogyan alkalmazzuk őket olyan termékekben, mint a ChatGPT

Frissítve: 3 days ago
Megjegyzés
: Egyes szolgáltatások adatmegőrzését érinthetik a közelmúltbeli jogi fejlemények – további részletekért tekintse meg

blogbejegyzésünket
.

Az OpenAI alapmodelljeit, köztük a ChatGPT működését biztosító modelleket három fő információforrás felhasználásával fejlesztjük: (1) az interneten nyilvánosan elérhető információk, (2) olyan információk, amelyekhez harmadik felekkel együttműködve férünk hozzá, valamint (3) olyan információk, amelyeket felhasználóink, emberi oktatóink és kutatóink adnak meg vagy hoznak létre.

Ez a cikk áttekintést ad azokról a nyilvánosan elérhető információkról, amelyeket e modellek fejlesztéséhez használunk, valamint arról, hogyan gyűjtjük és használjuk ezeket az információkat az adatvédelmi jogszabályoknak megfelelően. Ha szeretné megérteni, hogyan gyűjtünk és használunk információkat szolgáltatásaink felhasználóitól, beleértve azt is, hogyan tilthatja le, hogy a ChatGPT-beszélgetéseket modelljeink betanításának elősegítésére használjuk, kérjük, tekintse meg adatvédelmi irányelveinket és ezt a súgóközpont-cikket.

Mi az a ChatGPT, és hogyan működik?

A ChatGPT egy mesterségesintelligencia-alapú szolgáltatás, amelyet az interneten keresztül érhet el. A ChatGPT számos feladatra használható, többek között információk rendszerezésére és összefoglalására, fordítások segítésére, képek elemzésére vagy létrehozására, a kreativitás és ötletek ösztönzésére, valamint más mindennapi tevékenységekre. A ChatGPT úgy lett kialakítva, hogy megértse a felhasználói kérdéseket és utasításokat, és válaszoljon rájuk azáltal, hogy mintázatokat tanul nagy mennyiségű információból, többek között szövegekből, képekből, hangokból és videókból. A betanítás során a modell elemzi az adatokon belüli kapcsolatokat – például azt, hogy a szavak jellemzően hogyan jelennek meg együtt egy adott kontextusban –, és ezt a megértést felhasználva, szóról szóra haladva megjósolja a válasz létrehozásakor a következő legvalószínűbb szót. Hasonlóképpen, a más tartalomtípusokat, például képeket létrehozó modellek mintázatokat tanulnak arról, hogyan kapcsolódnak egymáshoz a pixelek, illetve a betanítási adatokban szereplő kapcsolódó képaláírásokhoz.

Például a modell tanulási folyamata (az úgynevezett „betanítás”) során a modell feladata lehet egy ilyen mondat kiegészítése: „Ahelyett, hogy balra fordult volna, ___ fordult.” A betanítás korai szakaszában a válaszai nagyrészt véletlenszerűek. Ahogy azonban a modell nagy mennyiségű szöveget dolgoz fel és tanul belőle, egyre jobban felismeri a mintázatokat, és egyre pontosabban jósolja meg a legvalószínűbb következő szót. Ez a folyamat mondatok millióin keresztül ismétlődik, hogy finomítsa a modell megértését és javítsa a pontosságát.

Mivel egy mondat kiegészítésének több hihető módja is van – például „Ahelyett, hogy balra fordult volna, jobbra fordult”, „megfordult” vagy „visszafordult” –, a modell válaszaiban eredendően jelen van a véletlenszerűség egy eleme. Ennek eredményeként ugyanaz a kérdés különböző lekérdezések esetén eltérő válaszokat eredményezhet.

A gépi tanulási modellek nagy számhalmazokból, úgynevezett „súlyokból” vagy „paraméterekből”, valamint az ezeket a számokat értelmező és használó kódból állnak. Ezek a modellek nem tárolják és nem őrzik meg azoknak az adatoknak a másolatait, amelyeken betanították őket. Ehelyett, ahogy a modell tanul, paramétereinek értékei kissé módosulnak, hogy tükrözzék az általa azonosított mintázatokat. A korábbi példában a modell a véletlenszerű szavak előrejelzésétől eljutott a pontosabb előrejelzésekig – nem úgy, hogy eltárolta a betanítási mondatokat, hanem úgy, hogy frissítette belső paramétereit. A modell nem őrzi meg a betanítás során feldolgozott mondatok, képek vagy hanganyagok másolatait. A ChatGPT nem „másol és beilleszt” a betanítási adataiból – hasonlóan ahhoz, ahogyan egy tanár hosszas tanulás után úgy tud fogalmakat elmagyarázni, hogy érti az eszmék közötti kapcsolatokat, anélkül hogy az eredeti anyagokat szó szerint memorizálná vagy reprodukálná. Amikor egy felhasználói kérésre választ hoz létre, a modell ezeket a megtanult súlyokat használja új tartalom előrejelzésére és létrehozására.

Milyen típusú nyilvános információkat használnak a ChatGPT betanításához?

A nyilvánosan elérhető internetes tartalmak esetében csak olyan információkat használunk, amelyek szabadon és nyíltan hozzáférhetők az interneten. Szándékosan nem gyűjtünk adatokat olyan forrásokból, amelyekről ismert, hogy fizetőfal mögött vannak, sem a dark webről. Emellett szűrőket alkalmazunk az olyan anyagok eltávolítására, amelyekből nem szeretnénk, hogy modelljeink tanuljanak, például a gyűlöletbeszéd, felnőtt tartalmak, személyes információkat összesítő webhelyek és spam. A fennmaradó információkat ezután modelljeink betanítására használjuk.

Használnak személyes információkat a ChatGPT betanításához?

Az online tartalmak jelentős része emberekkel kapcsolatos információkat tartalmaz, ezért betanítási adataink esetlegesen személyes információkat is tartalmazhatnak. Ugyanakkor nem gyűjtünk szándékosan személyes információkat modelljeink betanítása céljából.

A betanítási adatokat a modell képességeinek – például az előrejelzésnek, az érvelésnek és a problémamegoldásnak – a fejlesztésére használjuk, nem pedig felhasználói profilok létrehozására, személyek megkeresésére, illetve hirdetési vagy marketingtevékenységeink részeként.

Bizonyos esetekben a modellek személyes információkból is tanulhatnak annak megértéséhez, hogyan működnek a nyelvben az olyan elemek, mint a nevek és címek, vagy hogy felismerjék a közszereplőket és a jól ismert szervezeteket. Ez segít a modellnek pontosabb és a kontextushoz jobban illeszkedő válaszokat létrehozni.

Aktív lépéseket teszünk a személyes információk betanítás során történő feldolgozásának korlátozása érdekében. Például kizárjuk azokat a forrásokat, amelyek nagy mennyiségű személyes adatot összesítenek, és modelljeinket arra tanítjuk, hogy kerüljék az egyénekről szóló magánjellegű vagy érzékeny információkra irányuló kérések megválaszolását.

Hogyan felel meg a ChatGPT fejlesztése az adatvédelmi jogszabályoknak?

A betanítási információkat jogszerűen használjuk. Alapmodelljeink számos hasznos alkalmazást működtetnek – a tartalomkészítéstől és az ügyféltámogatástól kezdve a szoftverfejlesztésen és a személyre szabott oktatáson át a tudományos kutatásig. Ezek a képességek nagy léptékű betanítási adatoktól függenek. A modelljeink betanításához használt információk nyilvánosan elérhetők, és nem céljuk, hogy kárt okozzanak egyéneknek. A betanítási információkban szereplő személyes információk gyűjtését és felhasználását az adatvédelmi jogszabályok, például a GDPR szerinti jogos érdekekre alapozzuk, amint azt adatvédelmi irányelveinkben részletesebben is kifejtjük. Adatvédelmi hatásvizsgálatot végeztünk annak érdekében, hogy biztosítsuk ezen információk jogszerű és felelős gyűjtését és felhasználását.

Válaszolunk a tiltakozási kérelmekre és a hasonló jogok gyakorlására irányuló kérésekre. A nyelv megtanulásának eredményeként a ChatGPT válaszai néha személyes információkat tartalmazhatnak olyan személyekről, akiknek a személyes információi többször is megjelennek a nyilvános interneten (például közszereplőkről). Bizonyos joghatóságokban az egyének tiltakozhatnak személyes információik modelljeink általi feldolgozása ellen, vagy más érintetti jogokkal kapcsolatos kérelmeket nyújthatnak be az Adatvédelmi portálon keresztül. Ezeket a jogokat úgy is gyakorolhatja, hogy felveszi velünk a kapcsolatot a következő címen: dsar@openai.com.

Kérjük, vegye figyelembe, hogy az adatvédelmi jogszabályoknak megfelelően egyes jogok nem feltétlenül abszolútak. Elutasíthatunk egy kérelmet, ha erre jogszerű okunk van. Ugyanakkor törekszünk a személyes információk védelmének előtérbe helyezésére, és betartjuk az összes alkalmazandó adatvédelmi jogszabályt. Ha úgy érzi, hogy nem kezeltünk megfelelően egy problémát, joga van panaszt benyújtani a helyi felügyeleti hatóságnál.

Az OpenAI azon gyakorlatairól, amelyek a webhelyünk, alkalmazásaink és szolgáltatásaink használata során Öntől vagy Önről gyűjtött személyes információkra vonatkoznak, további információt adatvédelmi irányelveinkben talál.

Hasznos volt ez a cikk?