Merk: Datalagring for enkelte tjenester kan være påvirket av nylig juridisk utvikling – se blogginnlegget vårt for mer informasjon.
OpenAIs grunnmodeller, inkludert modellene som driver ChatGPT, utvikles ved hjelp av tre primære informasjonskilder: (1) informasjon som er offentlig tilgjengelig på internett, (2) informasjon vi samarbeider med tredjeparter om å få tilgang til, og (3) informasjon som brukerne våre, menneskelige trenere og forskere oppgir eller genererer.
Denne artikkelen gir en oversikt over den offentlig tilgjengelige informasjonen vi bruker til å bidra til å utvikle disse modellene, og hvordan vi samler inn og bruker denne informasjonen i samsvar med personvernlovgivningen. For å forstå hvordan vi samler inn og bruker informasjon fra brukere av tjenestene våre, inkludert hvordan du kan reservere deg mot at ChatGPT-samtaler brukes til å bidra til å lære opp modellene våre, kan du se personvernerklæringen vår og denne brukerstøtteartikkelen.
Hva er ChatGPT, og hvordan fungerer det?
ChatGPT er en tjeneste basert på kunstig intelligens som du kan få tilgang til via internett. Du kan bruke ChatGPT til en lang rekke oppgaver, blant annet å organisere og oppsummere informasjon, hjelpe med oversettelser, analysere eller generere bilder, inspirere kreativitet og ideer samt andre dagligdagse aktiviteter. ChatGPT er utviklet for å forstå og svare på brukeres spørsmål og instruksjoner ved å lære mønstre fra store mengder informasjon, inkludert tekst, bilder, lyd og video. Under treningen analyserer modellen sammenhenger i disse dataene – for eksempel hvordan ord vanligvis opptrer sammen i en kontekst – og bruker denne forståelsen til å forutsi det mest sannsynlige neste ordet når den genererer et svar, ett ord om gangen. På samme måte lærer modeller som genererer andre former for innhold, som bilder, mønstre i hvordan piksler forholder seg til hverandre og til tilhørende bildetekster i treningsdataene.
For eksempel kan modellen under læringsprosessen (kjent som «trening») få i oppgave å fullføre en setning som: «I stedet for å svinge til venstre, svingte hun ___.» Tidlig i treningen er svarene i stor grad tilfeldige. Etter hvert som modellen behandler og lærer av et stort volum tekst, blir den imidlertid bedre til å gjenkjenne mønstre og forutsi det mest sannsynlige neste ordet. Denne prosessen gjentas på tvers av millioner av setninger for å finjustere forståelsen og forbedre nøyaktigheten.
Fordi det finnes flere plausible måter å fullføre en setning på – som «I stedet for å svinge til venstre, svingte hun til høyre», «rundt» eller «tilbake» – er det et iboende element av tilfeldighet i hvordan modellen svarer. Som et resultat kan det samme spørsmålet gi ulike svar på tvers av ulike forespørsler.
Maskinlæringsmodeller består av store sett med tall, kjent som «vekter» eller «parametere», sammen med kode som tolker og bruker disse tallene. Disse modellene lagrer eller beholder ikke kopier av dataene de er trent på. I stedet justeres verdiene til modellens parametere litt etter hvert som modellen lærer, for å gjenspeile mønstre den har identifisert. I det tidligere eksempelet gikk modellen fra å forutsi tilfeldige ord til å lage mer nøyaktige prediksjoner – ikke ved å lagre treningssetningene, men ved å oppdatere sine interne parametere. Modellen beholder ikke kopier av setningene, bildene eller lyden den behandler under treningen. ChatGPT «kopierer og limer» ikke fra treningsdataene sine – på samme måte som en lærer, etter omfattende studier, kan forklare begreper ved å forstå forholdet mellom ideer uten å memorere eller gjengi originalmaterialet ordrett. Når modellen genererer et svar på en brukerforespørsel, bruker den disse innlærte vektene til å forutsi og skape nytt innhold.
Hvilken type offentlig informasjon brukes til å lære opp ChatGPT?
For offentlig tilgjengelig internettinnhold bruker vi bare informasjon som er fritt og åpent tilgjengelig på internett. Vi samler ikke med vilje inn data fra kilder som er kjent for å ligge bak betalingsmurer, eller fra det mørke nettet. I tillegg bruker vi filtre for å fjerne materiale vi ikke ønsker at modellene våre skal lære av, for eksempel hatefulle ytringer, vokseninnhold, nettsteder som samler inn personopplysninger, og spam. Den gjenværende informasjonen brukes deretter til å trene modellene våre.
Brukes personopplysninger til å lære opp ChatGPT?
En betydelig del av nettinnhold handler om informasjon om mennesker, så treningsdataene våre kan tilfeldig inneholde personopplysninger. Vi samler imidlertid ikke med vilje inn personopplysninger med det formål å trene modellene våre.
Vi bruker treningsdata til å utvikle modellens egenskaper – som prediksjon, resonnering og problemløsing – ikke til å bygge brukerprofiler, kontakte enkeltpersoner eller som en del av annonserings- eller markedsføringsarbeidet vårt.
I noen tilfeller kan modeller lære av personopplysninger for å forstå hvordan elementer som navn og adresser fungerer i språk, eller for å gjenkjenne offentlige personer og kjente enheter. Dette hjelper modellen med å generere mer nøyaktige og kontekstuelt passende svar.
Vi tar aktive grep for å begrense behandlingen av personopplysninger under trening. For eksempel utelukker vi kilder som samler store mengder personopplysninger, og vi trener modellene våre til å unngå å svare på forespørsler om privat eller sensitiv informasjon om enkeltpersoner.
Hvordan overholder utviklingen av ChatGPT personvernlovgivningen?
Vi bruker treningsinformasjon på lovlig vis. Grunnmodellene våre driver et bredt spekter av nyttige bruksområder – fra innholdsproduksjon og kundestøtte til programvareutvikling, persontilpasset utdanning og vitenskapelig forskning. Disse egenskapene avhenger av stor-skala treningdata. Informasjonen som brukes til å trene modellene våre, er offentlig tilgjengelig og er ikke ment å skade enkeltpersoner. Vi baserer vår innsamling og bruk av personopplysninger som inngår i treningsinformasjon, på berettigede interesser i henhold til personvernlovgivning som GDPR, som forklart nærmere i personvernerklæringen vår. Vi har gjennomført en vurdering av personvernkonsekvenser for å bidra til å sikre at vi samler inn og bruker denne informasjonen lovlig og ansvarlig.
Vi svarer på innsigelser og lignende rettighetsforespørsler. Som et resultat av å lære språk kan ChatGPT-svar noen ganger inneholde personopplysninger om enkeltpersoner hvis personopplysninger forekommer flere ganger på det offentlige internettet (for eksempel offentlige personer). Personer i visse jurisdiksjoner kan protestere mot behandling av personopplysningene sine av modellene våre eller fremsette andre forespørsler om rettigheter som registrert via personvernsportalen vår. Du kan også utøve disse rettighetene ved å kontakte dsar@openai.com.
Vær oppmerksom på at enkelte rettigheter kanskje ikke er absolutte, i samsvar med personvernlovgivningen. Vi kan avslå en forespørsel hvis vi har en lovlig grunn til å gjøre det. Vi streber imidlertid etter å prioritere beskyttelsen av personopplysninger og overholde all gjeldende personvernlovgivning. Hvis du mener at vi ikke har håndtert en sak på en tilstrekkelig måte, har du rett til å klage til din lokale tilsynsmyndighet.
Hvis du vil ha mer informasjon om OpenAIs praksis når det gjelder personopplysninger vi samler inn fra eller om deg når du bruker nettstedet, applikasjonene og tjenestene våre, kan du se personvernerklæringen vår.
