| Opmerking : De bewaring van gegevens voor bepaalde diensten kan worden beïnvloed door recente juridische ontwikkelingen. Bekijk onze blogpost voor meer informatie. |
|---|
De basismodellen van OpenAI, waaronder de modellen waarop ChatGPT draait, worden ontwikkeld met behulp van drie primaire informatiebronnen: (1) informatie die openbaar beschikbaar is op internet, (2) informatie waartoe we in samenwerking met derden toegang krijgen, en (3) informatie die onze gebruikers, menselijke trainers en onderzoekers verstrekken of genereren.
Dit artikel geeft een overzicht van de openbaar beschikbare informatie die we gebruiken om deze modellen te helpen ontwikkelen en hoe we die informatie verzamelen en gebruiken in overeenstemming met privacywetten. Als u wilt begrijpen hoe we informatie verzamelen en gebruiken van gebruikers van onze diensten, waaronder hoe u kunt voorkomen dat ChatGPT-gesprekken worden gebruikt om onze modellen te helpen trainen, raadpleegt u ons privacybeleid en dit helpcentrumartikel.
Wat is ChatGPT en hoe werkt het?
ChatGPT is een op kunstmatige intelligentie gebaseerde dienst waartoe u via internet toegang hebt. U kunt ChatGPT gebruiken voor een breed scala aan taken, waaronder het ordenen en samenvatten van informatie, hulp bij vertalingen, het analyseren of genereren van afbeeldingen, het stimuleren van creativiteit en ideeën, en andere dagelijkse activiteiten. ChatGPT is ontworpen om vragen en instructies van gebruikers te begrijpen en erop te reageren door patronen te leren uit grote hoeveelheden informatie, waaronder tekst, afbeeldingen, audio en video. Tijdens de training analyseert het model verbanden binnen deze gegevens, zoals hoe woorden doorgaans samen in een context voorkomen, en gebruikt het dat inzicht om bij het genereren van een antwoord steeds het meest waarschijnlijke volgende woord te voorspellen. Op vergelijkbare wijze leren modellen die andere vormen van content genereren, zoals afbeeldingen, patronen in hoe pixels zich tot elkaar en tot bijbehorende bijschriften in de trainingsgegevens verhouden.
Tijdens het leerproces van het model (bekend als ‘training’) kan het model bijvoorbeeld de taak krijgen een zin af te maken zoals: ‘In plaats van linksaf te gaan, ging ze ___.’ Vroeg in de training zijn de antwoorden grotendeels willekeurig. Maar naarmate het model een grote hoeveelheid tekst verwerkt en ervan leert, wordt het beter in het herkennen van patronen en het voorspellen van het meest waarschijnlijke volgende woord. Dit proces wordt herhaald over miljoenen zinnen om het begrip te verfijnen en de nauwkeurigheid te verbeteren.
Omdat er meerdere plausibele manieren zijn om een zin af te maken, zoals ‘In plaats van linksaf te gaan, ging ze rechtsaf’, ‘rond’ of ‘terug’, zit er een inherent element van willekeur in hoe het model reageert. Als gevolg daarvan kan dezelfde vraag bij verschillende verzoeken verschillende antwoorden opleveren.
Machinelearningmodellen bestaan uit grote reeksen getallen, bekend als ‘gewichten’ of ‘parameters’, samen met code die die getallen interpreteert en gebruikt. Deze modellen slaan geen kopieën op en bewaren geen kopieën van de gegevens waarop ze zijn getraind. In plaats daarvan worden, terwijl een model leert, de waarden van de parameters ervan licht aangepast om patronen weer te geven die het heeft geïdentificeerd. In het eerdere voorbeeld ging het model van het voorspellen van willekeurige woorden naar het doen van nauwkeurigere voorspellingen, niet door de trainingszinnen op te slaan, maar door de interne parameters bij te werken. Het model bewaart geen kopieën van de zinnen, afbeeldingen of audio die het tijdens de training verwerkt. ChatGPT ‘kopieert en plakt’ niet uit zijn trainingsgegevens, vergelijkbaar met hoe een docent na uitgebreide studie concepten kan uitleggen door de verbanden tussen ideeën te begrijpen zonder de oorspronkelijke materialen uit het hoofd te leren of letterlijk te reproduceren. Bij het genereren van een antwoord op een gebruikersverzoek gebruikt het model deze geleerde gewichten om nieuwe content te voorspellen en te maken.
Welk type openbare informatie wordt gebruikt om ChatGPT te trainen?
Voor openbaar beschikbare internetcontent gebruiken we alleen informatie die vrij en openlijk toegankelijk is op internet. We verzamelen niet opzettelijk gegevens uit bronnen waarvan bekend is dat ze achter betaalmuren zitten, of van het dark web. Daarnaast passen we filters toe om materiaal te verwijderen waarvan we niet willen dat onze modellen ervan leren, zoals haatzaaiende uitlatingen, inhoud voor volwassenen, sites die persoonlijke informatie verzamelen en spam. De resterende informatie wordt vervolgens gebruikt om onze modellen te trainen.
Wordt persoonlijke informatie gebruikt om ChatGPT te trainen?
Een aanzienlijk deel van online content bevat informatie over mensen, waardoor onze trainingsgegevens incidenteel persoonlijke informatie kunnen bevatten. We verzamelen echter niet opzettelijk persoonlijke informatie met als doel onze modellen te trainen.
We gebruiken trainingsgegevens om de mogelijkheden van het model te ontwikkelen, zoals voorspellen, redenering en probleemoplossing, niet om gebruikersprofielen op te bouwen, personen te benaderen of als onderdeel van onze advertentie- of marketinginspanningen.
In sommige gevallen kunnen modellen leren van persoonlijke informatie om te begrijpen hoe elementen zoals namen en adressen in taal functioneren, of om publieke figuren en bekende entiteiten te herkennen. Dit helpt het model nauwkeurigere en contextueel passender antwoorden te genereren.
We nemen actieve maatregelen om de verwerking van persoonlijke informatie tijdens de training te beperken. We sluiten bijvoorbeeld bronnen uit die grote hoeveelheden persoonlijke gegevens verzamelen, en we trainen onze modellen om niet te reageren op verzoeken om privé- of gevoelige informatie over personen.
Hoe voldoet de ontwikkeling van ChatGPT aan privacywetten?
We gebruiken trainingsinformatie rechtmatig. Onze basismodellen ondersteunen een breed scala aan nuttige toepassingen, van contentcreatie en klantenondersteuning tot softwareontwikkeling, gepersonaliseerd onderwijs en wetenschappelijk onderzoek. Deze mogelijkheden zijn afhankelijk van grootschalige trainingsgegevens. De informatie die wordt gebruikt om onze modellen te trainen, is openbaar beschikbaar en is niet bedoeld om personen schade toe te brengen. We baseren onze verzameling en ons gebruik van persoonlijke informatie die in trainingsinformatie is opgenomen op gerechtvaardigde belangen onder privacywetten zoals de AVG, zoals uitgebreider wordt uitgelegd in ons privacybeleid. We hebben een gegevensbeschermingseffectbeoordeling uitgevoerd om ervoor te zorgen dat we deze informatie rechtmatig en verantwoord verzamelen en gebruiken.
We reageren op bezwaren en vergelijkbare rechten. Als gevolg van het leren van taal kunnen ChatGPT-antwoorden soms persoonlijke informatie bevatten over personen van wie persoonlijke informatie meerdere keren op het openbare internet voorkomt (bijvoorbeeld publieke figuren). Personen in bepaalde rechtsgebieden kunnen bezwaar maken tegen de verwerking van hun persoonlijke informatie door onze modellen of andere verzoeken met betrekking tot rechten van betrokkenen indienen via ons privacy-portaal. U kunt deze rechten ook uitoefenen door contact op te nemen via dsar@openai.com.
Houd er rekening mee dat, in overeenstemming met privacywetten, sommige rechten mogelijk niet absoluut zijn. We kunnen een verzoek afwijzen als we daarvoor een rechtmatige reden hebben. We streven er echter naar de bescherming van persoonlijke informatie prioriteit te geven en voldoen aan alle toepasselijke privacywetten. Als u vindt dat we een kwestie niet voldoende hebben behandeld, hebt u het recht een klacht in te dienen bij uw lokale toezichthoudende autoriteit.
Raadpleeg voor meer informatie over OpenAI’s praktijken met betrekking tot persoonlijke informatie die we van of over u verzamelen wanneer u onze website, toepassingen en diensten gebruikt, ons privacybeleid.
