OpenAI’s foundation models, waaronder de modellen die ChatGPT aansturen, worden ontwikkeld met behulp van drie primaire informatiebronnen: (1) informatie die publiekelijk beschikbaar is op het internet, (2) informatie verkregen door samen te werken met derden en (3) informatie die onze gebruikers of menselijke trainers en onderzoekers verstrekken of genereren.
Dit artikel geeft een overzicht van de openbaar beschikbare informatie die we gebruiken om deze modellen te ontwikkelen en hoe we die informatie verzamelen en gebruiken in overeenstemming met privacywetgeving. Om te begrijpen hoe we informatie van de gebruikers van onze diensten verzamelen en gebruiken, waaronder hoe je je kunt afmelden (‘opt-out’) voor het gebruik van jouw ChatGPT-gesprekken voor trainingsdoeleinden, kan je ons Privacybeleid en dit Helpcentrum-artikel raadplegen.
Wat is ChatGPT en hoe werkt het?
ChatGPT is een dienst, gebaseerd op kunstmatige intelligentie, waartoe je via het internet toegang hebt. Je kan ChatGPT voor verschillende taken gebruiken, zoals informatie ordenen of samenvatten, helpen met vertalingen, een afbeelding analyseren of genereren, inspiratie opdoen voor creatieve projecten, nieuwe ideeën krijgen, of hulp bij alledaagse taken. ChatGPT is zo ontwikkeld dat het vragen en instructies van gebruikers kan begrijpen en hierop kan reageren. Dit doet het door een grote hoeveelheid bestaande informatie door te nemen, zoals tekst, afbeeldingen, audio of video, en te leren van de verbanden tussen deze informatie. Het model leert bijvoorbeeld hoe woorden worden toegepast in de context met andere woorden. Het gebruikt vervolgens wat het geeft geleerd om het volgende meest waarschijnlijke woord, en elk daaropvolgend woord te voorspellen dat zou kunnen voorkomen als reactie op een verzoek van een gebruiker. Deze modellen kunnen ook leren om andere vormen van informatie te genereren, zoals afbeeldingen. Ze doen dit door te leren hoe de pixels waaruit de afbeeldingen in de trainingsinformatie zijn opgebouwd zich tot elkaar en tot de bijschriften die de afbeeldingen beschrijven, verhouden.
Tijdens het leerproces van het model (dat “training” wordt genoemd) kunnen we bijvoorbeeld een model laten proberen om de volgende zin af te maken: “in plaats van linksaf te gaan, ging ze __ .” Voorafgaand aan de training zal het model reageren met willekeurige woorden, maar wanneer het leest en leert van vele regels tekst, begrijpt het dit soort zin beter en kan het het volgende woord nauwkeuriger voorspellen. Vervolgens herhaalt het dit proces over een zeer groot aantal zinnen.
Omdat er veel mogelijke woorden zijn die in deze zin kunnen volgen (bijvoorbeeld, in plaats van linksaf, ging ze “rechtsaf”, “rechtdoor”, of “terug”), is er een element van willekeur in de manier waarop een model kan reageren. In veel gevallen zullen onze modellen dezelfde vraag op verschillende manieren beantwoorden.
Modellen die machinaal leren (‘machine learning models’) bestaan uit grote reeksen getallen, “gewichten” of “parameters” genoemd, en code die deze getallen interpreteert en uitvoert. Modellen bevatten of slaan geen kopieën op van de informatie waarvan ze leren. In plaats daarvan veranderen enkele getallen waaruit het model is opgebouwd enigszins naarmate het model leert, om weer te geven wat het heeft geleerd. In het bovenstaande voorbeeld nam het model informatie door die hielp bij het voorspellen van willekeurige foute woorden, naar het voorspellen van meer juiste woorden. Het enige wat er eigenlijk in het model zelf gebeurde, was dat de getallen iets veranderden. Het model heeft de doorgenomen zinnen, afbeeldingen of audio niet opgeslagen of gekopieerd.
Welk type informatie wordt gebruikt om ChatGPT te trainen?
Zoals hierboven is vermeld, zijn ChatGPT en onze andere diensten ontwikkeld met behulp van (1) informatie die publiekelijk beschikbaar is op het internet, (2) informatie verkregen door samen te werken met derden en (3) informatie die onze gebruikers of menselijke trainers en onderzoekers verstrekken of genereren. Dit artikel richt zich op de eerste informatiebron: informatie die publiekelijk beschikbaar is op het internet.
Voor deze informatiebron gebruiken we alleen publiekelijk beschikbare informatie die vrij en openlijk te vinden is op het internet - we zoeken bijvoorbeeld niet naar informatie waarvan we weten dat die zich achter een betaalmuur of op het “dark web” bevindt. We passen filters toe en verwijderen informatie waarvan we niet willen dat onze modellen ervan leren of deze reproduceren, zoals haatzaaiing, adult content, sites die voornamelijk persoonsgegevens aggregeren en spam. Vervolgens gebruiken we deze informatie om onze modellen te trainen.
Zoals vermeld in de vorige sectie, kopieert ChatGPT geen trainingsinformatie en wordt deze ook niet opgeslagen in een databank. In plaats daarvan leert het de verbanden tussen woorden en concepten. Die leerervaringen helpen het model om zijn getallen/gewichten bij te werken. Het model gebruikt deze gewichten vervolgens om nieuwe content te voorspellen en te genereren als reactie op een verzoek van een gebruiker. Er wordt geen trainingsinformatie “gekopieerd en geplakt” - vergelijkbaar met een lerares die geleerd heeft van haar vooropleiding en dingen kan uitleggen omdat ze de verbanden tussen concepten weet, maar in haar hoofd geen kopieën van het materiaal opslaat.
Worden er persoonsgegevens gebruikt om ChatGPT te trainen?
Een grote hoeveelheid gegevens op het internet heeft betrekking op mensen, dus onze trainingsinformatie bevat mogelijk persoonsgegevens. Wij zoeken niet actief naar persoonsgegevens om onze modellen te trainen.
We gebruiken de trainingsinformatie alleen om onze modellen intelligentie aan te leren, zoals het vermogen om te voorspellen, te redeneren en problemen op te lossen. We gebruiken geen persoonsgegevens in trainingsinformatie en zullen dat ook niet doen om profielen over mensen op te stellen, contact met hen op te nemen, aan hen te adverteren, te proberen iets aan hen te verkopen of om de informatie zelf te verkopen.
Onze modellen kunnen leren van persoonsgegevens om te begrijpen hoe namen en adressen in taal en zinnen passen of om te leren over beroemde mensen en publieke figuren. Hierdoor kunnen onze modellen beter relevante antwoorden geven.
We treffen ook maatregelen om de verwerking van persoonsgegevens bij het trainen van onze modellen te beperken. We verwijderen bijvoorbeeld websites waarop grote hoeveelheden persoonsgegevens worden geaggregeerd en trainen we onze modellen zo dat ze verzoeken om privé- of gevoelige informatie over mensen afwijzen.
Hoe voldoet de ontwikkeling van ChatGPT aan de privacywetgeving?
We gebruiken trainingsinformatie op een rechtmatige manier. Onze foundation models hebben veel toepassingen die significante voordelen bieden en mensen helpen bij het creëren van content, het verbeteren van de klantenservice, het ontwikkelen van software, het aanbieden van onderwijs op maat, het ondersteunen van wetenschappelijk onderzoek, en nog veel meer. Deze voordelen kunnen niet worden verwezenlijkt zonder een grote hoeveelheid informatie om de modellen te trainen. Bovendien is het niet de bedoeling dat ons gebruik van trainingsinformatie negatieve gevolgen heeft voor individuen. De primaire bronnen van deze trainingsinformatie zijn ook al openbaar beschikbaar. Om deze redenen baseren we onze verzameling en gebruik van persoonsgegevens die zijn opgenomen in trainingsinformatie op gerechtvaardigde belangen onder de privacywetgeving, zoals de AVG, zoals meer in detail wordt uitgelegd in ons Privacybeleid. We hebben ook een gegevensbeschermingseffectbeoordeling uitgevoerd om ervoor te zorgen dat we deze informatie op legale en verantwoorde wijze verzamelen en gebruiken.
We reageren op bezwaaraanvragen en soortgelijke rechten. Als gevolg van het leren van taal, kunnen de antwoorden van ChatGPT soms persoonsgegevens bevatten over individuen van wie de persoonsgegevens meermaals op het openbare internet verschijnen (bijvoorbeeld publieke figuren). Individuen in bepaalde jurisdicties kunnen bezwaar maken tegen de verwerking van hun persoonsgegevens door onze modellen of een ander verzoek tot uitoefening van een recht als betrokkene indienen in ons Privacycentrum. Je kunt deze rechten ook uitoefenen door contact op te nemen met dsar@openai.com.
Houd er rekening mee dat sommige rechten, in overeenstemming met de privacywetgeving, niet absoluut zijn. We kunnen een verzoek weigeren als we daar een wettige reden voor hebben. We streven er echter naar om prioriteit te geven aan de bescherming van persoonsgegevens en om te voldoen aan alle toepasselijke privacywetgeving. Als je van mening bent dat we een probleem niet naar behoren hebben aangepakt, dan heb je het recht om een klacht in te dienen bij jouw lokale toezichthoudende autoriteit.
Voor meer informatie over de werkwijze van OpenAI met betrekking tot persoonsgegevens die we van of over jou verzamelen wanneer je onze website, applicaties en diensten gebruikt, zie ons Privacybeleid.