Skip to main content

Slik utvikles ChatGPT og våre grunnmodeller

Finn ut mer om hvordan vi utvikler modellene våre og bruker dem i produkter som ChatGPT

Updated over 5 months ago

OpenAIs store grunnmodeller, inkludert modellene som driver ChatGPT, har blitt utviklet ved bruk av tre primære informasjonskilder: (1) informasjon som er offentlig tilgjengelig på internett, (2) informasjon som vi samarbeider med tredjeparter for å få tilgang til, og (3) informasjon som brukere eller personer som driver med opplæring og forskning oppgir eller genererer.

Denne artikkelen inneholder en oversikt over den offentlig tilgjengelige informasjonen vi bruker for å utvikle disse modellene, og hvordan vi samler inn og bruker denne informasjonen i samsvar med personvernlovgivningen. For å forstå hvordan vi samler inn og bruker informasjon fra brukere av tjenestene våre, inkludert hvordan du velger bort at ChatGPT-samtaler kan brukes til å lære opp modellene våre, kan du lese personvernerklæringen og denne brukerstøtteartikkelen.

Hva er ChatGPT, og hvordan fungerer det?

ChatGPT er en tjeneste basert på kunstig intelligens som du kan få tilgang til via internett. Du kan bruke ChatGPT til en rekke forskjellige oppgaver, for eksempel til å organisere eller oppsummere informasjon, hjelpe til med oversettelser, analysere eller generere et bilde, inspirere til kreativitet og vekke ideer, og for å hjelpe til med dagligdagse gjøremål. ChatGPT er utviklet på en måte som lar den forstå og svare på spørsmål og instruksjoner fra brukere. Den gjør dette ved å gjennomgå store mengder eksisterende informasjon, for eksempel tekst, bilder, lyd eller video, og lære av sammenhengene i informasjonen. For eksempel lærer modellen hvordan ord har en tendens til å dukke opp i sammenheng med andre ord og bruker deretter det den har lært til å forutsi det neste mest sannsynlige ordet som kan vises som svar på en brukerforespørsel, og hvert påfølgende ord etter det. Disse modellene kan også lære seg å generere andre former for informasjon, for eksempel bilder, ved å lære hvordan pikslene som utgjør bildene i opplæringsdataene forholder seg til hverandre, og til bildetekstene som beskriver dem.

Under modellopplæringssprosessen (kalt «opplæring») kan vi for eksempel ha en modell som prøver å fullføre setningen: «i stedet for å svinge til venstre, svingte hun ___.» Før opplæring vil modellen svare med tilfeldige ord, men ettersom den leser og lærer fra mange linjer med tekst, forstår den denne typen setninger bedre og kan forutsi neste ord mer nøyaktig. Den gjentar deretter denne prosessen i et veldig stort antall setninger.

Fordi det er mange mulige ord som kan bli de neste i denne setningen (for eksempel i stedet for å svinge til venstre, svingte hun «til høyre», «rundt» eller «tilbake»), er det et element av tilfeldighet i måten en modell kan komme til å svare på, og i mange tilfeller vil modellene våre svare på det samme spørsmålet på forskjellige måter.

Maskinopplæringsmodeller består av store tallstrenger kalt «vekter» eller «parametere», og kode som tolker og prosesserer disse tallene. Modeller inneholder eller lagrer ikke kopier av informasjon som de lærer av. I stedet, ettersom en modell lærer, vil noen av tallene som utgjør modellen endres noe, for å gjenspeile det den har lært. I eksemplet ovenfor gjennomgikk modellen informasjon som hjalp den med å forbedre seg fra å forutsi tilfeldige feil ord til å forutsi mer nøyaktige ord. Alt som faktisk skjedde i selve modellen var imidlertid at tallene endret seg noe. Modellen lagret eller kopierte ikke setningene, bildene eller lyden den gjennomgikk.

Hva slags informasjon brukes til å lære opp ChatGPT?

Som nevnt ovenfor, er ChatGPT og våre andre tjenester utviklet ved bruk av (1) informasjon som er offentlig tilgjengelig på internett, (2) informasjon som vi samarbeider med tredjeparter for å få tilgang til, og (3) informasjon som brukere eller personer som driver med opplæring og forskning oppgir eller genererer. Denne artikkelen fokuserer på den første samlingen: informasjon som er offentlig tilgjengelig på internett.

Til denne samlingen med informasjon bruker vi kun offentlig tilgjengelig informasjon som er fritt og åpent tilgjengelig på internett. Vi søker for eksempel ikke etter informasjon som vi vet befinner seg bak betalingsmurer eller som er fra det «mørke nettet». Vi bruker filtre og fjerner informasjon som vi ikke vil at modellene våre skal lære av eller oppgi. Dette gjelder for eksempel hatefulle ytringer, innhold som bare er for voksne, nettsteder som primært samler inn personopplysninger og spam. Vi bruker deretter informasjonen til å lære opp modellene våre.

Som nevnt i forrige avsnitt, kopierer eller lagrer ikke ChatGPT opplæringsinformasjon i en database. I stedet lærer den assosiasjoner mellom ord og konsepter, og denne opplæringen hjelper modellen med å oppdatere tallene/vektene. Modellen bruker deretter disse vektene til å forutsi og generere nytt innhold som svar på en brukerforespørsel. Den «kopierer og limer» ikke inn opplæringsinformasjon. Dette tilsvarer hva en lærer som har lært fra store mengder tidligere studier gjør, når hun kan forklare ting fordi hun har lært sammenhengen mellom konsepter, men uten å lagre kopier av materialet i hodet sitt.

Brukes personopplysninger til å lære opp ChatGPT?

En stor mengde data på internett er knyttet til mennesker, så opplæringsinformasjonen vår kan derfor inneholde derfor personopplysninger. Vi søker ikke aktivt etter personopplysninger for å lære opp modellene våre.

Vi bruker opplæringsinformasjon kun til å lære modellene våre intelligens, for eksempel evnen til å kunne forutsi, resonnere og løse problemer. Vi bruker ikke og vil ikke bruke noen personopplysninger i opplæringsinformasjon for å bygge profiler om personer, for å kontakte dem, for å gi dem reklame, for å prøve å selge dem noe eller for å selge selve informasjonen.

Modellene våre kan lære av personopplysninger for å forstå hvordan ting som navn og adresser passer inn i språk og setninger, eller for å lære om berømte eller offentlige personer. Dette gjør modellene våre bedre i stand til å gi relevante svar. I tillegg har vi truffet tiltak for å begrense behandlingen av personopplysninger når vi lærer opp modellene våre. For eksempel så fjerner vi nettsteder som samler inn store mengder personopplysninger, og vi lærer opp modellene våre til å avvise forespørsler om private eller sensitive opplysninger om personer.

Vi iverksetter også tiltak for å begrense behandlingen av personopplysninger når vi trener modellene våre. For eksempel fjerner vi nettsteder som samler store mengder personopplysninger, og vi prøver å trene modellene våre til å avvise forespørsler om privat eller sensitiv informasjon om personer.

Hvordan overholder utviklingen av ChatGPT personvernlovgivningen?

Vi bruker opplæringsinformasjon på lovlig vis. Våre grunnmodeller har mange bruksområder som tilbyr betydelige fordeler og allerede hjelper folk med å skape innhold, forbedre kundeservice, utvikle programvare, tilpasse utdanning, støtte vitenskapelig forskning og mye mer. Disse fordelene kan ikke realiseres uten en stor mengde informasjon til å lære opp modellene. Vår bruk av opplæringsinformasjon har ikke til hensikt å påvirke enkeltpersoner negativt, og de primære kildene til denne opplæringsinformasjonen er allerede offentlig tilgjengelig. På denne bakgrunn baserer vi vår innsamling og bruk av personopplysninger som er inkludert i opplæringsinformasjon på våre legitime interesser i henhold til personvernlovgivning som GDPR, som forklart mer detaljert i vår personvernerklæring. Vi har også fullført en konsekvensanalyse for personvernbeskyttelse for å sikre at vi samler inn og bruker denne informasjonen på lovlig og ansvarlig måte.

Vi svarer på protesthenvendelser og lignende rettigheter. Som et resultat av å lære språk, kan ChatGPT-svar noen ganger inneholde personopplysninger om personer som er offentlig tilgjengelig og vises gjentatte ganger på internett (for eksempel offentlige personer). Enkeltpersoner i visse jurisdiksjoner kan protestere mot behandlingen av deres personopplysninger i våre modeller eller komme med andre forespørsler om opplysningsrettigheter via vårt personvernsenter. Du kan også utøve disse rettighetene ved å kontakte dsar@openai.com.

Vær oppmerksom på at i henhold til personvernlovgivningen kan det hende at noen rettigheter ikke er absolutte. Vi kan avslå en forespørsel hvis vi har en lovlig grunn til å gjøre det. Vi streber imidlertid etter å prioritere beskyttelse av personopplysninger, og overholder all gjeldende personvernlovgivning. Hvis du mener at vi ikke har behandlet et problem tilstrekkelig, har du rett til å sende inn en klage til din lokale tilsynsmyndighet.

For mer informasjon om OpenAIs praksis med hensyn til personopplysninger vi samler inn fra eller om deg når du bruker nettstedet vårt og applikasjonene og tjenestene våre, kan du se vår personvernerklæring.

Did this answer your question?