Skip to main content
All CollectionsPrivacy and policies
Hogyan fejlesztjük a ChatGPT-modelleket és saját alapmodelljeinket?
Hogyan fejlesztjük a ChatGPT-modelleket és saját alapmodelljeinket?

Tudjon meg többet arról, hogyan fejlesztjük ki a modelljeinket és használjuk őket a ChatGPT-hez hasonló termékekben

Updated over a month ago

Az OpenAI az alapmodelljeit – köztük a ChatGPT-t – működtető modelleket három elsődleges információforrásra támaszkodva fejleszti: (1) az interneten nyilvánosan elérhető információk, (2) olyan információk, amelyekhez harmadik felekkel való együttműködés keretében férünk hozzá, és (3) olyan információk, amelyeket a felhasználóink, humán trénereink és kutatóink bocsátanak rendelkezésre vagy generálnak.

E cikk áttekintést nyújt a szóban forgó modellek fejlesztésének elősegítéséhez általunk használt, nyilvánosan elérhető információkról, valamint arról, hogy ezeket az információkat hogyan gyűjtjük és használjuk fel az adatvédelmi jogszabályok betartásával. Annak megértéséhez, hogyan gyűjtünk a szolgáltatásaink igénybe vevőitől információkat, és azokat hogyan használjuk fel, többek között pedig annak megértéséhez, hogyan tiltsa le a modelljeink betanításához használt ChatGPT-beszélgetéseket, kérjük tekintse meg az Adatvédelmi Szabályzatunkatés ezt a Súgóközpont-cikket.

Mi az a ChatGPT és hogyan működik?

A ChatGPT olyan, mesterséges intelligencián alapuló szolgáltatás, amelyet az interneten keresztül érhet el. A ChatGPT-t számos feladat elvégzésére – például információk rendszerezésére vagy összegzésére, fordítások támogatására, kép elemzésére vagy generálására, kreativitás ösztönzésére és ötletek kiváltására, valamint a mindennapi feladatvégzés elősegítésére – használhatja. A ChatGPT-t úgy fejlesztettük, hogy meg tudja érteni és válaszolni a felhasználói kérdéseket és utasításokat. A ChatGPT ezt úgy valósítja meg, hogy nagy mennyiségű meglévő információt – például szöveget, képet, hangot vagy videót – tekint át, és tanul az információkban rejlő összefüggésekből. A modell például megtanulja, hogy a szavak hogyan jelennek meg más szavakkal összefüggésben, majd a tanultakat felhasználva előre jelzi a felhasználói kérésre adott válaszban legvalószínűbben megjelenő következő szót és az azt követő minden egyes szót. Ezek a modellek továbbá képesek megtanulni más információformákat – például képeket – generálni azáltal, hogy megtanulják, a tanulóadatokban a képeket alkotó pixelek hogyan kapcsolódnak egymáshoz és a képeket leíró feliratokhoz.

Például a modell tanulási folyamata (úgynevezett „betanulás”) során egy modell megpróbálhatja kiegészíteni a következő mondatot: „Ahelyett, hogy balra fordult volna, ___ fordult.” A betanulás előtt a modell véletlenszerű szavakkal válaszol, de ahogy számos sornyi szöveget elolvas és megtanul, jobban megérti az ilyen típusú mondatokat, és pontosabban tudja előre jelezni a következő szót. Ezután ezt a folyamatot számos mondaton keresztül megismétli.

Mivel számos szó szóba jöhet ebben a mondatban (például ahelyett, hogy balra fordult volna, „jobbra”, „körbe” vagy „vissza” fordult), a modell reakciója véletlenszerűségi elemet tartalmaz, és modelljeink sok esetben különböző módon válaszolnak ugyanarra a kérdésre.

A gépi tanulási modellek „súlyoknak” vagy „paramétereknek” nevezett hosszú számsorokból, valamint olyan kódból állnak, amely értelmezi és végrehajtja ezeket a számokat. A modellek nem tartalmaznak és nem tárolnak olyan információkat, amelyekből tanulnak. Ahogyan viszont a modell tanul, a modellt alkotó számok némelyike ​​kissé megváltozik, hogy tükrözze a tanultakat. A fenti példában a modell áttekintette azokat az információkat, amelyek abban az időtartamban segítettek számára fejlődni, amíg eljutott a helytelen szavak véletlenszerű előrejelzésétől a pontosabb szavak előrejelzésééig, de a modellen belül csupán annyi történt, hogy kissé megváltoztak a számok. A modell nem tárolta és nem másolta le az általa áttekintett mondatokat, képeket vagy hanganyagokat.

Milyen típusú információkat használunk a ChatGPT betanítására?

A fentiek szerint a ChatGPT-t és más szolgáltatásainkat a következők felhasználásával fejlesztjük: (1) az interneten nyilvánosan elérhető információk, (2) olyan információk, amelyekhez harmadik felekkel való együttműködés keretében férünk hozzá, és (3) olyan információk, amelyeket a felhasználóink, humán trénereink és kutatóink bocsátanak rendelkezésre vagy generálnak. Ez a cikk az első csoportra, az interneten nyilvánosan elérhető információkra fókuszál.

Ezen információhalmaz esetében kizárólag olyan, nyilvánosan elérhető információkat használunk fel, amelyek szabadon és nyilvánosan elérhetők az interneten. Például nem keresünk olyan információkat, amelyekről tudjuk, hogy fizetősek vagy a dark webről származnak. Szűrőket alkalmazunk, és eltávolítjuk azokat az információkat, amelyekből nem szeretnénk, hogy modelljeink tanuljanak, vagy hogy azokat eredményként adják ki. Ide tartozik például a gyűlöletbeszéd, a felnőtteknek szánt tartalom, az elsősorban személyes adatokat összesítő weboldal és a levélszemét. Ezután felhasználjuk az információkat modelljeink betanítására.

Az előző részben említettek szerint a ChatGPT nem másolja le és nem tárolja adatbázisban a betanulási információkat. Ehelyett megtanulja a szavak és fogalmak közötti asszociációkat. Ezek a tanulások segítenek a modellnek frissíteni a számokat/súlyokat. A modell ezután ezeket a súlyokat arra használja, hogy a felhasználói kérésre válaszul új tartalmat jelezzen előre és generáljon. Nem „másolja le és illeszti be” a betanulási információkat. Inkább egy olyan tanárhoz hasonlít, aki sok korábbi tanulmányból tanult, és meg tud magyarázni dolgokat, mert megtanulta a fogalmak közötti összefüggéseket, de nem tárolja a fejében az anyagok másolatát.

Felhasználunk-e személyes adatokat a ChatGPT betanítására?

Az interneten nagy mennyiségű adat kapcsolódik emberekhez, így előfordulhat, hogy betanulási információink véletlenül személyes adatokat is magukban foglalnak. Modelljeink betanításához nem keresünk aktívan személyes adatokat.

A betanulási információkat kizárólag arra használjuk, hogy modelljeinket intelligenciára – például a problémák előrejelzésére, megindokolására és megoldására – tanítsuk. Nem használunk és nem is fogunk semmilyen személyes adatot betanulási információ keretében felhasználni, hogy profilt alkothassunk emberekről, kapcsolatba léphessünk velük, reklámot jeleníthessünk meg nekik, megpróbáljunk bármit eladni nekik, vagy hogy magát az információt adjuk el.

Modelljeink tanulhatnak személyes adatokból, hogy megértsék, a nevek és címek hogyan illeszkednek a nyelvbe és a mondatokba, vagy megismerjenek híres embereket és közéleti személyiségeket. Ezáltal modelljeink relevánsabb válaszokat képesek adni.

Emellett lépéseket teszünk annak érdekében, hogy kevesebb személyes adatot kezeljünk modelljeink betanítása során. Például eltávolítjuk azokat a weboldalakat, amelyek nagy mennyiségű személyes adatot gyűjtenek össze, és modelljeinket arra tanítjuk, hogy elutasítsák az emberek személyes vagy érzékeny adataira vonatkozó kéréseket.

Hogyan felel meg a ChatGPT fejlesztése az adatvédelmi jogszabályoknak?

A betanulási információkat jogszerűen használjuk fel. Alapmodelljeink számos alkalmazással rendelkeznek, amelyek jelentős előnyökkel járnak, és már most is segítik az embereket a tartalmak létrehozásában, az ügyfélszolgálat fejlesztésében, a szoftverfejlesztésben, az oktatás testreszabásában, a tudományos kutatás támogatásában és még sok másban. Ha nem használunk fel nagy mennyiségű információt a modellek betanításához, ezek az előnyök nem érhetők el. A betanulási információkat továbbá nem azért használjuk fel, hogy negatívan befolyásoljuk az embereket, továbbá azok elsődleges forrásai nyilvánosan elérhetők. Ezen okokból kifolyólag az adatvédelmi jogszabályok – például a GDPR – szerinti jogos érdekekre alapozzuk a betanulási információkban szereplő személyes adatok gyűjtését és felhasználását. Ezt az Adatvédelmi Szabályzatunkbanrészletezzük. Készítettünk egy adatvédelmi hatástanulmányt is annak biztosítására, hogy ezeket az információkat jogszerűen és felelősségteljesen gyűjtsük és használjuk fel.

Válaszolunk a kifogásokat és más hasonló jogok gyakorlását magukban foglaló kérésekre. A ChatGPT válaszai a nyelvtanulás eredményeként olykor személyes adatokat is tartalmazhatnak olyan egyénekre (például közszereplőkre) vonatkozóan, akiknek személyes adatai többször is megjelennek nyilvánosan az interneten. Az egyes joghatósági területeken élő egyének tiltakozhatnak személyes adataik modelljeink általi kezelése ellen, vagy egyéb, az érintettek jogainak gyakorlására vonatkozó kérést nyújthatnak be az Adatvédelmi Portálunkon keresztül. Ezeket a jogokat úgy is gyakorolhatja, ha e-mailt küld a dsar@openai.com e-mail-címre.

Kérjük, vegye figyelembe, hogy az adatvédelmi jogszabályoknak megfelelően bizonyos jogok nem feltétlenül abszolút jogok. Elutasíthatjuk a kérést, ha erre jogszerű okunk van. Mindazonáltal törekszünk arra, hogy előtérbe helyezzük a személyes adatok védelmét, és betartjuk az összes hatályos adatvédelmi jogszabályt. Ha Ön úgy érzi, hogy egy problémát nem kezeltünk megfelelően, jogában áll panaszt benyújtani a helyi felügyeleti hatósághoz.

Az OpenAI-nak azon gyakorlataira vonatkozó további tájékoztatásért, hogy Öntől vagy Önről a weboldalunk, alkalmazásaink és szolgáltatásaink használata során milyen személyes adatokat gyűjtünk, tekintse meg az Adatvédelmi Szabályzatunkat.

Did this answer your question?