| Merk : Oppbevaring av data for enkelte tjenester kan bli påvirket av nylige juridiske utviklinger – se vårt blogginnlegg for mer informasjon. |
|---|
OpenAIs grunnmodeller, inkludert modellene som driver ChatGPT, utvikles ved hjelp av tre hovedkilder til informasjon: (1) informasjon som er offentlig tilgjengelig på internett, (2) informasjon som vi samarbeider med tredjeparter for å få tilgang til, og (3) informasjon som brukerne våre, menneskelige trenere og forskere gir eller genererer.
Denne artikkelen gir en oversikt over den offentlig tilgjengelige informasjonen vi bruker for å bidra til å utvikle disse modellene, og hvordan vi samler inn og bruker denne informasjonen i samsvar med personvernlovgivningen. For å forstå hvordan vi samler inn og bruker informasjon fra brukere av tjenestene våre, inkludert hvordan du kan reservere deg mot at ChatGPT-samtaler brukes til å bidra til å lære opp modellene våre, kan du se vår personvernerklæring og denne artikkelen i hjelpesenteret.
Hva er ChatGPT, og hvordan fungerer det?
ChatGPT er en tjeneste basert på kunstig intelligens som du kan få tilgang til via internett. Du kan bruke ChatGPT til et bredt spekter av oppgaver, blant annet å organisere og oppsummere informasjon, hjelpe med oversettelser, analysere eller generere bilder, inspirere til kreativitet og ideer samt andre hverdagsaktiviteter. ChatGPT er utviklet for å forstå og svare på brukerspørsmål og instruksjoner ved å lære mønstre fra store mengder informasjon, inkludert tekst, bilder, lyd og video. Under trening analyserer modellen sammenhenger i disse dataene – for eksempel hvordan ord vanligvis opptrer sammen i kontekst – og bruker denne forståelsen til å forutsi det neste mest sannsynlige ordet når den genererer et svar, ett ord om gangen. På samme måte lærer modeller som genererer andre former for innhold, som bilder, mønstre i hvordan piksler forholder seg til hverandre og til tilhørende bildetekster i treningsdataene.
For eksempel kan modellen under læringsprosessen (kjent som «trening») få i oppgave å fullføre en setning som: «I stedet for å svinge til venstre, svingte hun ___». Tidlig i treningen er svarene i stor grad tilfeldige. Etter hvert som modellen behandler og lærer av et stort tekstvolum, blir den imidlertid bedre til å gjenkjenne mønstre og forutsi det mest sannsynlige neste ordet. Denne prosessen gjentas på tvers av millioner av setninger for å finjustere forståelsen og forbedre nøyaktigheten.
Fordi det finnes flere plausible måter å fullføre en setning på – for eksempel «I stedet for å svinge til venstre, svingte hun til høyre», «rundt» eller «tilbake» – finnes det et iboende element av tilfeldighet i hvordan modellen svarer. Som følge av dette kan det samme spørsmålet gi ulike svar i ulike spørringer.
Maskinlæringsmodeller består av store sett med tall, kjent som «vekter» eller «parametere», sammen med kode som tolker og bruker disse tallene. Disse modellene lagrer eller beholder ikke kopier av dataene de er trent på. I stedet justeres verdiene til parameterne litt etter hvert som en modell lærer, for å gjenspeile mønstre den har identifisert. I det tidligere eksempelet gikk modellen fra å forutsi tilfeldige ord til å gjøre mer nøyaktige forutsigelser – ikke ved å lagre treningssetningene, men ved å oppdatere sine interne parametere. Modellen beholder ikke kopier av setningene, bildene eller lyden den behandler under trening. ChatGPT «kopierer og limer inn» ikke fra treningsdataene sine – på samme måte som en lærer, etter omfattende studier, kan forklare begreper ved å forstå sammenhengene mellom ideer uten å memorere eller gjengi det opprinnelige materialet ordrett. Når modellen genererer et svar på en brukerforespørsel, bruker den disse lærte vektene til å forutsi og skape nytt innhold.
Hvilken type offentlig informasjon brukes til å lære opp ChatGPT?
For offentlig tilgjengelig internettinnhold bruker vi bare informasjon som er fritt og åpent tilgjengelig på internett. Vi samler ikke med hensikt inn data fra kilder vi vet ligger bak betalingsmurer, eller fra det mørke nettet. I tillegg bruker vi filtre for å fjerne materiale vi ikke ønsker at modellene våre skal lære av, for eksempel hatefulle ytringer, vokseninnhold, nettsteder som samler personlig informasjon, og søppelpost. Den gjenværende informasjonen brukes deretter til å trene modellene våre.
Brukes personlig informasjon til å lære opp ChatGPT?
En betydelig del av nettinnhold handler om informasjon om personer, så treningsdataene våre kan utilsiktet inneholde personlig informasjon. Vi samler imidlertid ikke med hensikt inn personlig informasjon med det formål å trene modellene våre.
Vi bruker treningsdata til å utvikle modellens evner – som prediksjon, resonnering og problemløsing – ikke til å bygge brukerprofiler, kontakte enkeltpersoner eller som del av annonse- eller markedsføringsarbeidet vårt.
I noen tilfeller kan modeller lære av personlig informasjon for å forstå hvordan elementer som navn og adresser fungerer i språk, eller for å gjenkjenne offentlige personer og kjente enheter. Dette hjelper modellen med å generere mer nøyaktige og kontekstmessig passende svar.
Vi tar aktive grep for å begrense behandlingen av personlig informasjon under trening. Vi utelukker for eksempel kilder som samler store mengder personopplysninger, og vi trener modellene våre til å unngå å svare på forespørsler om privat eller sensitiv informasjon om enkeltpersoner.
Hvordan overholder utviklingen av ChatGPT personvernlovgivningen?
Vi bruker treningsinformasjon på lovlig vis. Grunnmodellene våre driver et bredt spekter av nyttige bruksområder – fra innholdsskaping og kundestøtte til programvareutvikling, tilpasset utdanning og vitenskapelig forskning. Disse evnene avhenger av treningsdata i stor skala. Informasjonen som brukes til å trene modellene våre, er offentlig tilgjengelig og er ikke ment å skade enkeltpersoner. Vi baserer vår innsamling og bruk av personlig informasjon som inngår i treningsinformasjon, på berettigede interesser i henhold til personvernlovgivning som GDPR, som forklart mer detaljert i vår personvernerklæring. Vi har gjennomført en vurdering av personvernkonsekvenser for å bidra til å sikre at vi samler inn og bruker denne informasjonen lovlig og ansvarlig.
Vi svarer på innsigelser og lignende rettigheter. Som følge av språklæring kan ChatGPT-svar noen ganger inneholde personlig informasjon om enkeltpersoner hvis personlige informasjon forekommer flere ganger på det offentlige internettet (for eksempel offentlige personer). Personer i visse jurisdiksjoner kan protestere mot at modellene våre behandler deres personlige informasjon, eller komme med andre forespørsler knyttet til rettigheter som registrert, via vår personvernsportal. Du kan også utøve disse rettighetene ved å kontakte dsar@openai.com.
Vær oppmerksom på at enkelte rettigheter, i samsvar med personvernlovgivningen, kanskje ikke er absolutte. Vi kan avslå en forespørsel hvis vi har en lovlig grunn til å gjøre det. Vi streber imidlertid etter å prioritere beskyttelsen av personlig informasjon og overholde all gjeldende personvernlovgivning. Hvis du mener at vi ikke har behandlet et problem tilstrekkelig, har du rett til å klage til din lokale tilsynsmyndighet.
Hvis du vil ha mer informasjon om OpenAIs praksis når det gjelder personlig informasjon vi samler inn fra eller om deg når du bruker nettstedet, applikasjonene og tjenestene våre, kan du se vår personvernerklæring.
