Lees meer over hoe we onze modellen ontwikkelen en toepassen in producten zoals ChatGPT

De basismodellen van OpenAI, waaronder de modellen achter ChatGPT, worden ontwikkeld met behulp van drie hoofdbronnen van informatie: (1) informatie die openbaar beschikbaar is op internet, (2) informatie waartoe we via samenwerking met derden toegang krijgen, en (3) informatie die onze gebruikers, menselijke trainers en onderzoekers verstrekken of genereren.

Het ontwikkelen van basismodellen zoals de modellen die in ChatGPT worden gebruikt, bestaat uit verschillende fasen, waaronder het voorbereiden van trainingsgegevens, pre-training en post-training, evenals doorlopende evaluatie en verbetering na implementatie. In deze fasen kunnen verschillende soorten informatie voor uiteenlopende doeleinden worden gebruikt, onder meer om de prestaties, betrouwbaarheid en veiligheid van modellen te verbeteren.

Dit artikel geeft een overzicht van de informatie die we gebruiken om deze modellen te helpen ontwikkelen, hoe we die informatie verzamelen en gebruiken in overeenstemming met privacywetgeving, en welke waarborgen we gedurende het trainingsproces toepassen. Lees ons privacybeleid en dit helpcentrumartikel om te begrijpen hoe we informatie van gebruikers van onze diensten verzamelen en gebruiken, inclusief hoe je je kunt afmelden voor het gebruik van ChatGPT-gesprekken om onze modellen te helpen verbeteren.

Wat is ChatGPT en hoe werkt het?

ChatGPT is een dienst op basis van kunstmatige intelligentie die je via internet of de app kunt gebruiken. Je kunt ChatGPT gebruiken voor allerlei taken, zoals informatie ordenen en samenvatten, helpen met vertalingen, ondersteuning bieden bij coderen, onderzoek en analyse, meerstapstaken uitvoeren in verschillende tools, afbeeldingen analyseren of genereren, creativiteit en ideeën stimuleren, en andere dagelijkse activiteiten. ChatGPT is ontworpen om vragen en instructies van gebruikers te begrijpen en erop te reageren door patronen te leren uit grote hoeveelheden informatie, waaronder tekst, afbeeldingen, audio en video.

Tijdens de training analyseert het model verbanden binnen deze gegevens, zoals hoe woorden doorgaans samen in een context voorkomen, en gebruikt het dat inzicht om bij het genereren van een antwoord telkens het meest waarschijnlijke volgende woord te voorspellen. Tekst kan worden omgezet in kleinere eenheden, soms ‘tokens’ genoemd, die hele woorden, woorddelen of leestekens kunnen vertegenwoordigen. Tokens zijn de bouwstenen van tekst die het model verwerkt. Op vergelijkbare wijze leren modellen die andere vormen van inhoud genereren, zoals afbeeldingen, patronen in hoe pixels zich tot elkaar en tot bijbehorende bijschriften in de trainingsgegevens verhouden.

Tijdens het leerproces van het model (bekend als ‘training’) kan het model bijvoorbeeld de taak krijgen een zin af te maken, zoals: ‘In plaats van linksaf te slaan, sloeg ze ___.’ Vroeg in de training zijn de antwoorden grotendeels willekeurig. Maar naarmate het model een grote hoeveelheid tekst verwerkt en daarvan leert, wordt het beter in het herkennen van patronen en het voorspellen van het meest waarschijnlijke volgende woord. Dit proces wordt herhaald voor miljoenen zinnen om het begrip van het model te verfijnen en de nauwkeurigheid te verbeteren.

Omdat er meerdere plausibele manieren zijn om een zin af te maken, zoals ‘In plaats van linksaf te slaan, sloeg ze rechtsaf’, ‘om’ of ‘terug’, bevat de manier waarop het model reageert een inherent element van willekeur. Daardoor kan dezelfde vraag bij verschillende zoekopdrachten verschillende antwoorden opleveren.

Machinelearningmodellen bestaan uit grote reeksen getallen, bekend als ‘gewichten’ of ‘parameters’, samen met code die deze getallen interpreteert en gebruikt. Deze modellen slaan geen kopieën op van de gegevens waarop ze zijn getraind en bewaren die ook niet. In plaats daarvan worden tijdens het leren van een model de waarden van de parameters iets aangepast om patronen weer te geven die het heeft geïdentificeerd. In het eerdere voorbeeld ging het model van het voorspellen van willekeurige woorden naar het doen van nauwkeurigere voorspellingen, niet door de trainingszinnen op te slaan, maar door de interne parameters bij te werken. Het model bewaart geen kopieën van de zinnen, afbeeldingen of audio die het tijdens de training verwerkt. ChatGPT ‘kopieert en plakt’ niet uit de trainingsgegevens, vergelijkbaar met hoe een docent na uitgebreide studie concepten kan uitleggen door de verbanden tussen ideeën te begrijpen, zonder de oorspronkelijke materialen woordelijk uit het hoofd te leren of te reproduceren. Wanneer het model een antwoord op een gebruikersverzoek genereert, gebruikt het deze geleerde gewichten om nieuwe inhoud te voorspellen en te creëren.

Welke informatie wordt gebruikt om ChatGPT te trainen?

Voor openbaar beschikbare internetinhoud gebruiken we alleen informatie die vrij en openlijk toegankelijk is op internet. Dit kan onder meer gaan om openbaar beschikbare webpagina’s, openbare forums, openbare blogs, openbare berichten en andere openbaar beschikbare online-inhoud. Als je bijvoorbeeld deelneemt aan een openbaar beschikbaar online discussieforum of een openbare blog of ander openbaar bericht plaatst, kunnen we die openbaar toegankelijke inhoud gebruiken voor modeltrainingsdoeleinden. We nemen echter maatregelen om de verwerking van persoonsgegevens in ons trainingsproces te beperken. Bij het verzamelen van openbaar beschikbare internetinhoud verzamelen we niet bewust gegevens uit bronnen waarvan bekend is dat ze achter betaalmuren zitten, of van het dark web. Daarnaast passen we filters toe om materiaal te verwijderen waarvan we niet willen dat onze modellen ervan leren, zoals haatzaaiende uitlatingen, volwassen inhoud, sites die persoonsgegevens verzamelen en spam. De overblijvende informatie wordt vervolgens gebruikt om onze modellen te trainen.

Website-eigenaren kunnen beheren of openbaar beschikbare inhoud van hun sites mag worden gebruikt voor training door standaardwebcontroles zoals robots.txt te gebruiken om GPTBot te blokkeren, dat openbaar beschikbare inhoud kan crawlen om onze modellen te helpen trainen. We bieden richtlijnen om website-eigenaren te helpen beheren hoe hun sites en inhoud omgaan met onze AI-systemen.

We gebruiken ook informatie van externe partners om onze modellen te helpen trainen en verbeteren. Dit kan informatie omvatten in datasets waartoe we toegang hebben via overeenkomsten met derden, evenals informatie die wordt verstrekt of gegenereerd door menselijke trainers en onderzoekers, voor zover toegestaan onder ons beleid en onze overeenkomsten. Dit helpt de kwaliteit, veiligheid en prestaties van onze modellen te verbeteren. Deze bronnen kunnen tekst, afbeeldingen, audio, video of andere gegevenstypen omvatten, afhankelijk van de dataset.

We gebruiken in sommige trainingsprocessen ook steeds vaker synthetische gegevens. We kunnen bijvoorbeeld informatie en onze modellen gebruiken om synthetische prompts, meertalige voorbeelden of ander trainingsmateriaal te genereren. Synthetische gegevens kunnen de modelprestaties helpen verbeteren, onder meer door trainingsgegevens aan te vullen op gebieden waar gegevens schaars of onevenwichtig zijn, en kunnen ook privacybevorderende benaderingen van modelontwikkeling ondersteunen.

Worden persoonsgegevens gebruikt om ChatGPT te trainen?

Een aanzienlijk deel van online-inhoud bevat informatie over mensen, waardoor onze trainingsgegevens incidenteel persoonsgegevens kunnen bevatten. We nemen echter maatregelen om de verwerking van persoonsgegevens in ons trainingsproces te beperken.

We gebruiken trainingsgegevens om de mogelijkheden van het model te ontwikkelen, zoals voorspelling, redenering en probleemoplossing, niet om profielen van personen op te bouwen, contact met hen op te nemen of advertenties op hen te personaliseren.

In sommige gevallen kunnen modellen van persoonsgegevens leren om te begrijpen hoe elementen zoals namen en adressen in taal functioneren, of om publieke personen en bekende entiteiten te herkennen. Dit helpt het model nauwkeurigere antwoorden te genereren die beter bij de context passen.

Hoe worden persoonsgegevens tijdens de training beschermd?

We nemen actieve maatregelen om de verwerking van persoonsgegevens tijdens de training te beperken. We sluiten bijvoorbeeld bekende bronnen uit die grote hoeveelheden persoonsgegevens verzamelen, passen filtering toe om persoonsgegevens in het trainingsproces te verminderen, en nemen maatregelen om dubbele inhoud te identificeren en te verwijderen om het risico op herhaling van trainingsgegevens te verkleinen. Daarnaast trainen we onze modellen om niet te reageren op verzoeken om privé- of gevoelige informatie over personen.

Hoelang we informatie bewaren

We bewaren informatie in trainingsgegevens alleen zolang als redelijkerwijs nodig is voor de doeleinden die in dit artikel en ons privacybeleid worden beschreven, onder meer om onze modellen te ontwikkelen en te verbeteren en voor aanverwant wetenschappelijk onderzoek. Bewaring wordt periodiek beoordeeld om te waarborgen dat deze noodzakelijk blijft, en varieert afhankelijk van het soort informatie en hoe die wordt gebruikt. Bij het bepalen van de bewaartermijn houden we rekening met factoren zoals ons doel voor de verwerking van de informatie, de hoeveelheid, aard en gevoeligheid van de informatie, het mogelijke risico op schade door ongeoorloofd gebruik of ongeoorloofde openbaarmaking, en eventuele wettelijke verplichtingen waaraan we zijn onderworpen.

Hoe voldoet de ontwikkeling van ChatGPT aan privacywetgeving?

We gebruiken trainingsinformatie op rechtmatige wijze. Onze basismodellen ondersteunen een breed scala aan nuttige toepassingen, waaronder toegankelijkheidstools, klantenondersteuning, softwareontwikkeling, gepersonaliseerd onderwijs en wetenschappelijk onderzoek. Deze mogelijkheden zijn afhankelijk van grootschalige trainingsgegevens, waaronder openbaar beschikbare informatie en informatie van externe partners. We passen gedurende het hele trainingsproces waarborgen toe, waaronder maatregelen die bedoeld zijn om de verwerking van persoonsgegevens in het trainingsproces te beperken en risico’s te beperken, zoals in dit artikel wordt beschreven. We baseren onze verzameling en ons gebruik van persoonsgegevens die in trainingsinformatie zijn opgenomen op gerechtvaardigde belangen onder privacywetgeving zoals de AVG, onder meer om onze modellen te trainen en te verbeteren voor gebruikers en de bredere samenleving, in lijn met onze missie om ervoor te zorgen dat kunstmatige algemene intelligentie iedereen ten goede komt, zoals uitgebreider wordt uitgelegd in ons privacybeleid. We hebben een gegevensbeschermingseffectbeoordeling uitgevoerd om te helpen waarborgen dat we deze informatie rechtmatig en verantwoord verzamelen en gebruiken.

Wanneer informatie kan worden gedeeld of overgedragen

We ‘verkopen’ geen persoonsgegevens en maken persoonsgegevens in trainingsgegevens alleen bekend in de beperkte omstandigheden die in ons privacybeleid worden beschreven. We kunnen bijvoorbeeld informatie delen met gelieerde ondernemingen, leveranciers en dienstverleners die de ontwikkeling, het testen en de verbetering van onze modellen ondersteunen. We kunnen informatie ook bekendmaken als we te goeder trouw menen dat dit noodzakelijk is om aan een wettelijke verplichting te voldoen of om onze rechten, veiligheid en beveiliging en die van onze gebruikers, werknemers of het publiek te beschermen, zoals beschreven in ons privacybeleid.

Omdat onze infrastructuur wereldwijd is, kunnen persoonsgegevens in trainingsgegevens worden verwerkt in landen buiten de EER, Zwitserland of het VK (waaronder de Verenigde Staten). Waar dit gebeurt, passen we passende waarborgen toe, zoals adequaatheidsbesluiten of standaardcontractbepalingen, zoals beschreven in ons privacybeleid.

Je rechten en hoe je ze kunt uitoefenen

We reageren op bezwaarverzoeken en vergelijkbare verzoeken tot uitoefening van rechten. Als gevolg van het leren van taal kunnen ChatGPT-antwoorden soms persoonsgegevens bevatten over personen van wie persoonsgegevens meerdere keren op het openbare internet voorkomen (bijvoorbeeld publieke personen). Personen in bepaalde rechtsgebieden kunnen bezwaar maken tegen de verwerking van hun persoonsgegevens door onze modellen of andere verzoeken op grond van rechten van betrokkenen indienen via ons privacy-portaal. Je kunt deze rechten ook uitoefenen door contact op te nemen via privacy@openai.com.

Geef voldoende informatie zodat we je verzoek kunnen beoordelen en beantwoorden, zoals je naam, relevante URL’s, specifieke voorbeelden van modeluitvoer of andere details die helpen het probleem te identificeren, zodat we begrijpen op welke persoonsgegevens je verzoek betrekking heeft. In sommige gevallen kunnen we je vragen je identiteit te verifiëren of te bevestigen dat de informatie op jou betrekking heeft voordat we actie kunnen ondernemen. Meer informatie over het indienen van deze verzoeken, waaronder best practices en hoe verzoeken worden beoordeeld, is beschikbaar in ons helpcentrumartikel over het verwijderen van persoonsgegevens uit ChatGPT. We beoordelen verzoeken in overeenstemming met toepasselijke privacywetgeving en reageren binnen de geldende wettelijke termijnen.

Houd er rekening mee dat sommige rechten, in overeenstemming met privacywetgeving, mogelijk niet absoluut zijn. We kunnen bijvoorbeeld mogelijk niet aan een verzoek voldoen wanneer we de relevante informatie niet kunnen verifiëren, wanneer het verzoek geen betrekking heeft op persoonsgegevens die door OpenAI worden verwerkt, wanneer een uitzondering van toepassing is of wanneer we een andere rechtmatige reden hebben om dit te doen. Verzoeken worden per geval beoordeeld en kunnen een afweging vereisen tussen privacyrechten en andere belangrijke overwegingen, zoals vrijheid van meningsuiting en het algemeen belang.

We streven er echter naar de bescherming van persoonsgegevens prioriteit te geven en voldoen aan alle toepasselijke privacywetgeving. Als je vindt dat we een kwestie niet adequaat hebben behandeld, heb je het recht een klacht in te dienen bij je lokale toezichthoudende autoriteit.

Zie ons privacybeleid voor meer informatie over de praktijken van OpenAI met betrekking tot persoonsgegevens die we van of over jou verzamelen wanneer je onze website, applicaties en diensten gebruikt.

Hoe ChatGPT en onze basismodellen worden ontwikkeld

Wat is ChatGPT en hoe werkt het?

Welke informatie wordt gebruikt om ChatGPT te trainen?

Worden persoonsgegevens gebruikt om ChatGPT te trainen?

Hoe voldoet de ontwikkeling van ChatGPT aan privacywetgeving?

Was dit artikel nuttig?