OpenAI tilbyr offentlig tilgjengelige generative AI-systemer i delstaten California. Vi utvikler disse systemene ved hjelp av en rekke datakilder, inkludert offentlig tilgjengelige data, data vi samarbeider med tredjeparter om å få tilgang til, og informasjon som brukerne våre eller menneskelige trenere og forskere oppgir eller genererer. Vi utvikler også systemene våre ved hjelp av syntetiske data.
Vi bruker data for å hjelpe systemene våre med å forstå menneskelig språk og verden bedre. Det gjør igjen at systemene våre kan styrke menneskelig kreativitet, fremme vitenskapelige oppdagelser og medisinsk forskning, og gjøre det mulig for hundrevis av millioner mennesker å forbedre hverdagen sin. Systemene våre utvikles på datasett som inneholder billioner av token med tekst-, bilde-, lyd- og audiovisuelt innhold.
Vi bruker et mangfoldig sett med data til å utvikle systemene våre, inkludert data som kan være opphavsrettsbeskyttet, og data i det fri. Selv om vi tar grep for å redusere mengden personopplysninger i treningsdatasettene våre, kan noen av dataene våre inneholde personopplysninger og aggregerte forbrukeropplysninger slik dette er definert i California Civil Code Section 1798.140. Brukerne våre kan reservere seg mot at innholdet deres brukes til trening, samt be om fjerning av visse personopplysninger fra ChatGPT-svar, ved hjelp av vår personvernsportal. Vi bruker en rekke teknikker til å behandle datasettene våre for å forbedre ytelsen og nøyaktigheten til modellene våre.
Vi begynte å samle inn data for å utvikle systemene våre omtrent i 2018, og vi fortsetter å samle inn data i dag. Vi brukte datasettene våre for første gang til systemutvikling i 2021.
Du finner mer informasjon om utviklingen av systemene våre i systemkortene våre.
Sammendrag av treningsdata i henhold til California Civil Code Section 3111
Oppdatert: 3 days ago
