OpenAI tilbyr offentlig tilgjengelige generative KI-systemer i delstaten California. Vi utvikler disse systemene ved hjelp av en rekke datakilder, inkludert offentlig tilgjengelige data, data vi får tilgang til i samarbeid med tredjeparter, og informasjon som brukerne våre eller menneskelige trenere og forskere gir eller genererer. Vi utvikler også systemene våre ved hjelp av syntetiske data.
Vi bruker data for å hjelpe systemene våre med å forstå menneskelig språk og verden bedre. Dette gjør det igjen mulig for systemene våre å styrke menneskelig kreativitet, fremme vitenskapelige oppdagelser og medisinsk forskning, og gjøre det mulig for hundrevis av millioner mennesker å forbedre hverdagen sin. Systemene våre utvikles på datasett som inneholder billioner av token med tekstlig, bilde-, lyd- og audiovisuelt innhold.
Vi bruker et mangfoldig sett med data for å utvikle systemene våre, inkludert data som kan være beskyttet av opphavsrett og data som er i det fri. Selv om vi tar grep for å redusere mengden personopplysninger i treningsdatasettene våre, kan noen av dataene våre inneholde personopplysninger og aggregert forbrukerinformasjon slik det er definert i California Civil Code Section 1798.140. Brukerne våre kan reservere seg mot at innholdet deres brukes til trening, og også be om fjerning av visse personopplysninger fra ChatGPT-svar, ved å bruke personvernsportal. Vi bruker en rekke teknikker for å behandle datasettene våre for å forbedre ytelsen og nøyaktigheten til modellene våre.
Vi begynte å samle inn data for å utvikle systemene våre rundt 2018, og vi fortsetter å samle inn data i dag. Vi brukte datasettene våre til systemutvikling første gang i 2021.
Du finner mer informasjon om utviklingen av systemene våre i systemkortene våre.
Sammendrag av treningsdata i henhold til California Civil Code Section 3111
Oppdatert: 17 hours ago
