Les mer om hvordan vi utvikler modellene våre og bruker dem i produkter som ChatGPT

OpenAIs grunnmodeller, inkludert modellene som driver ChatGPT, utvikles ved hjelp av tre hovedkilder til informasjon: (1) informasjon som er offentlig tilgjengelig på internett, (2) informasjon vi samarbeider med tredjeparter om å få tilgang til, og (3) informasjon som brukerne våre, menneskelige trenere og forskere oppgir eller genererer.

Utvikling av grunnmodeller som dem som brukes i ChatGPT, omfatter flere trinn, blant annet klargjøring av treningsdata, førtrening og ettertrening, samt løpende evaluering og forbedring etter utrulling. Ulike typer informasjon kan brukes på disse trinnene til forskjellige formål, blant annet for å forbedre modellenes ytelse, pålitelighet og sikkerhet.

Denne artikkelen gir en oversikt over informasjonen vi bruker for å bidra til å utvikle disse modellene, hvordan vi samler inn og bruker denne informasjonen i samsvar med personvernlovgivningen, og hvilke sikkerhetstiltak vi bruker gjennom hele treningsprosessen. For å forstå hvordan vi samler inn og bruker informasjon fra brukere av tjenestene våre, inkludert hvordan du kan reservere deg mot at ChatGPT-samtaler brukes til å bidra til å forbedre modellene våre, kan du se vår personvernerklæring og denne hjelpesenterartikkelen.

Hva er ChatGPT, og hvordan fungerer det?

ChatGPT er en tjeneste basert på kunstig intelligens som du kan få tilgang til via internett eller app. Du kan bruke ChatGPT til en lang rekke oppgaver, blant annet å organisere og oppsummere informasjon, hjelpe med oversettelser, bistå med koding, forskning og analyse, fullføre flertrinnsoppgaver på tvers av verktøy, analysere eller generere bilder, inspirere kreativitet og ideer samt andre hverdagsaktiviteter. ChatGPT er utformet for å forstå og svare på brukeres spørsmål og instruksjoner ved å lære mønstre fra store mengder informasjon, inkludert tekst, bilder, lyd og video.

Under treningen analyserer modellen sammenhenger i disse dataene – for eksempel hvordan ord vanligvis opptrer sammen i kontekst – og bruker denne forståelsen til å forutsi det neste mest sannsynlige ordet når den genererer et svar, ett ord om gangen. Tekst kan gjøres om til mindre enheter, noen ganger kalt «tokener», som kan representere hele ord, deler av ord eller tegnsetting. Tokener er byggesteinene i tekst som modellen behandler. På samme måte lærer modeller som genererer andre former for innhold, som bilder, mønstre i hvordan piksler forholder seg til hverandre og til tilhørende bildetekster i treningsdataene.

For eksempel kan modellen under læringsprosessen (kjent som «trening») få i oppgave å fullføre en setning som: «I stedet for å svinge til venstre, svingte hun til ___.» Tidlig i treningen er svarene i stor grad tilfeldige. Etter hvert som modellen behandler og lærer av store mengder tekst, blir den imidlertid bedre til å gjenkjenne mønstre og forutsi det mest sannsynlige neste ordet. Denne prosessen gjentas på tvers av millioner av setninger for å finjustere modellens forståelse og forbedre nøyaktigheten.

Fordi det finnes flere plausible måter å fullføre en setning på – for eksempel «I stedet for å svinge til venstre, svingte hun til høyre», «rundt» eller «tilbake» – er det et iboende element av tilfeldighet i hvordan modellen svarer. Derfor kan det samme spørsmålet gi ulike svar i ulike forespørsler.

Maskinlæringsmodeller består av store sett med tall, kjent som «vekter» eller «parametere», sammen med kode som tolker og bruker disse tallene. Disse modellene lagrer eller beholder ikke kopier av dataene de trenes på. I stedet justeres verdiene til modellens parametere litt etter hvert som den lærer, slik at de gjenspeiler mønstre den har identifisert. I det tidligere eksempelet gikk modellen fra å forutsi tilfeldige ord til å gjøre mer nøyaktige forutsigelser – ikke ved å lagre treningssetningene, men ved å oppdatere de interne parameterne sine. Modellen beholder ikke kopier av setningene, bildene eller lyden den behandler under trening. ChatGPT «kopierer og limer inn» ikke fra treningsdataene sine – på samme måte som en lærer etter omfattende studier kan forklare begreper ved å forstå sammenhengene mellom ideer uten å memorere eller gjengi originalmaterialet ordrett. Når modellen genererer et svar på en brukerforespørsel, bruker den disse lærte vektene til å forutsi og skape nytt innhold.

Hvilken type informasjon brukes til å lære opp ChatGPT?

Når det gjelder offentlig tilgjengelig internettinnhold, bruker vi bare informasjon som er fritt og åpent tilgjengelig på internett. Dette kan omfatte offentlig tilgjengelige nettsider, offentlige forum, offentlige blogger, offentlige innlegg og annet offentlig tilgjengelig nettinnhold. Hvis du for eksempel deltar i et offentlig tilgjengelig diskusjonsforum på nettet eller publiserer en offentlig blogg eller et annet offentlig innlegg, kan vi bruke dette offentlig tilgjengelige innholdet til modelltrening. Vi iverksetter imidlertid tiltak for å redusere behandlingen av personopplysninger i treningsprosessen. Når vi samler inn offentlig tilgjengelig internettinnhold, henter vi ikke bevisst inn data fra kilder vi vet ligger bak betalingsmurer eller fra det mørke nettet. I tillegg bruker vi filtre for å fjerne materiale vi ikke vil at modellene våre skal lære av, for eksempel hatefulle ytringer, vokseninnhold, nettsteder som samler personopplysninger, og søppelinnhold. Den gjenværende informasjonen brukes deretter til å trene modellene våre.

Nettstedseiere kan styre om offentlig tilgjengelig innhold fra nettstedene deres kan åpnes for bruk i trening, ved å bruke standard nettkontroller som robots.txt til å blokkere GPTBot, som kan gjennomsøke offentlig tilgjengelig innhold for å bidra til å trene modellene våre. Vi tilbyr veiledning for å hjelpe nettstedseiere med å styre hvordan nettstedene og innholdet deres samhandler med KI-systemene våre.

Vi bruker også informasjon fra tredjepartspartnere for å bidra til å trene og forbedre modellene våre. Dette kan omfatte informasjon i datasett som vi får tilgang til gjennom avtaler med tredjeparter, samt informasjon som oppgis eller genereres av menneskelige trenere og forskere der dette er tillatt i henhold til retningslinjene og avtalene våre. Dette bidrar til å forbedre kvaliteten, sikkerheten og ytelsen til modellene våre. Disse kildene kan omfatte tekst, bilder, lyd, video eller andre datatyper, avhengig av datasettet.

Vi bruker også i økende grad syntetiske data i enkelte treningsprosesser. Vi kan for eksempel bruke informasjon og modellene våre til å generere syntetiske prompter, flerspråklige eksempler eller annet treningsmateriell. Syntetiske data kan bidra til å forbedre modellens ytelse, blant annet ved å supplere treningsdata på områder der data er sparsomme eller ubalanserte, og kan også støtte personvernfremmende tilnærminger til modellutvikling.

Brukes personopplysninger til å lære opp ChatGPT?

En betydelig del av innholdet på nettet handler om mennesker, så treningsdataene våre kan utilsiktet inneholde personopplysninger. Vi iverksetter imidlertid tiltak for å redusere behandlingen av personopplysninger i treningsprosessen.

Vi bruker treningsdata til å utvikle modellens evner – som prediksjon, resonnering og problemløsing – ikke til å bygge profiler av enkeltpersoner, kontakte dem eller tilpasse annonser til dem.

I noen tilfeller kan modeller lære av personopplysninger for å forstå hvordan elementer som navn og adresser fungerer i språk, eller for å gjenkjenne offentlige personer og kjente enheter. Dette hjelper modellen med å generere mer nøyaktige og kontekstuelt passende svar.

Hvordan beskyttes personopplysninger under trening?

Vi tar aktive grep for å begrense behandlingen av personopplysninger under trening. Vi utelukker for eksempel kjente kilder som samler store mengder personopplysninger, bruker filtrering for å redusere personopplysninger i treningsprosessen og tar grep for å identifisere og fjerne duplisert innhold for å redusere risikoen for gjentakelse av treningsdata. I tillegg trener vi modellene våre til å unngå å svare på forespørsler om privat eller sensitiv informasjon om enkeltpersoner.

Hvor lenge vi beholder informasjon

Vi beholder informasjon i treningsdata bare så lenge det med rimelighet er nødvendig for formålene beskrevet i denne artikkelen og i vår personvernerklæring, blant annet for å utvikle og forbedre modellene våre og for relaterte vitenskapelige forskningsformål. Lagring vurderes jevnlig for å sikre at den fortsatt er nødvendig, og varierer avhengig av typen informasjon og hvordan den brukes. Når vi fastsetter lagringstid, vurderer vi faktorer som formålet vårt med å behandle informasjonen, mengden, arten og sensitiviteten til informasjonen, den potensielle risikoen for skade ved uautorisert bruk eller utlevering og eventuelle rettslige forpliktelser vi er underlagt.

Hvordan overholder utviklingen av ChatGPT personvernlovgivningen?

Vi bruker treningsinformasjon på lovlig måte. Grunnmodellene våre driver et bredt spekter av nyttige bruksområder – inkludert tilgjengelighetsverktøy, kundestøtte, programvareutvikling, tilpasset opplæring og vitenskapelig forskning. Disse egenskapene er avhengige av treningsdata i stor skala, inkludert offentlig tilgjengelig informasjon og informasjon fra tredjepartspartnere. Vi bruker sikkerhetstiltak gjennom hele treningsprosessen, inkludert tiltak som er utformet for å redusere behandlingen av personopplysninger i treningsprosessen og for å redusere risiko, som beskrevet i denne artikkelen. Vi baserer vår innsamling og bruk av personopplysninger som inngår i treningsinformasjon, på berettigede interesser i henhold til personvernlovgivning som GDPR, blant annet for å trene og forbedre modellene våre for brukere og samfunnet for øvrig, i tråd med oppdraget vårt om å sikre at kunstig generell intelligens kommer alle til gode, som forklart mer detaljert i vår personvernerklæring. Vi har gjennomført en vurdering av personvernkonsekvenser for å bidra til å sikre at vi samler inn og bruker denne informasjonen lovlig og ansvarlig.

Når informasjon kan deles eller overføres

Vi «selger» ikke personopplysninger, og utleverer bare personopplysninger i treningsdata i de begrensede tilfellene som er beskrevet i vår personvernerklæring. Vi kan for eksempel dele informasjon med tilknyttede selskaper, leverandører og tjenesteleverandører som støtter utvikling, testing og forbedring av modellene våre. Vi kan også utlevere informasjon når vi i god tro mener at en slik handling er nødvendig for å overholde en rettslig forpliktelse eller for å beskytte våre og brukernes, ansattes eller offentlighetens rettigheter, trygghet og sikkerhet, som beskrevet i vår personvernerklæring.

Siden infrastrukturen vår er global, kan personopplysninger i treningsdata behandles i land utenfor EØS, Sveits eller Storbritannia (inkludert i USA). Når dette skjer, bruker vi egnede sikkerhetstiltak, som beslutninger om tilstrekkelig beskyttelsesnivå eller standardavtalevilkår, som beskrevet i vår personvernerklæring.

Dine rettigheter og hvordan du utøver dem

Vi svarer på innsigelser og lignende forespørsler om rettigheter. Som følge av at ChatGPT lærer språk, kan svarene noen ganger inneholde personopplysninger om enkeltpersoner hvis personopplysninger finnes flere ganger på det åpne internettet (for eksempel offentlige personer). Personer i visse jurisdiksjoner kan protestere mot at personopplysningene deres behandles av modellene våre, eller sende inn andre forespørsler om registrertes rettigheter via vår personvernsportal. Du kan også utøve disse rettighetene ved å kontakte privacy@openai.com.

For å hjelpe oss med å vurdere og svare på forespørselen din ber vi deg oppgi nok informasjon til at vi kan forstå hvilke personopplysninger forespørselen gjelder, for eksempel navnet ditt, relevante nettadresser, konkrete eksempler på modellutdata eller andre detaljer som bidrar til å identifisere problemet. I noen tilfeller kan vi be deg bekrefte identiteten din eller bekrefte at informasjonen gjelder deg før vi kan iverksette tiltak. Mer informasjon om hvordan du sender inn slike forespørsler, inkludert beste praksis og hvordan forespørsler vurderes, finnes i vår hjelpesenterartikkel om fjerning av personopplysninger fra ChatGPT. Vi vurderer forespørsler i samsvar med gjeldende personvernlovgivning og svarer innen gjeldende lovpålagte frister.

Vær oppmerksom på at enkelte rettigheter ikke nødvendigvis er absolutte i henhold til personvernlovgivningen. Vi kan for eksempel være ute av stand til å etterkomme en forespørsel dersom vi ikke kan bekrefte den relevante informasjonen, dersom forespørselen ikke gjelder personopplysninger som behandles av OpenAI, dersom et unntak gjelder, eller dersom vi har en annen lovlig grunn til å gjøre det. Forespørsler vurderes fra sak til sak og kan innebære en avveiing av personvernrettigheter mot andre viktige hensyn, som ytringsfrihet og allmennhetens interesse.

Vi forsøker imidlertid å prioritere beskyttelsen av personopplysninger og overholder all gjeldende personvernlovgivning. Hvis du mener at vi ikke har håndtert et problem på en tilfredsstillende måte, har du rett til å klage til din lokale tilsynsmyndighet.

For mer informasjon om OpenAIs praksis når det gjelder personopplysninger vi samler inn fra eller om deg når du bruker nettstedet, applikasjonene og tjenestene våre, kan du se vår personvernerklæring.

Hvordan ChatGPT og grunnmodellene våre utvikles

Hva er ChatGPT, og hvordan fungerer det?

Hvilken type informasjon brukes til å lære opp ChatGPT?

Brukes personopplysninger til å lære opp ChatGPT?

Hvordan overholder utviklingen av ChatGPT personvernlovgivningen?

Var denne artikkelen nyttig?