OpenAI nudi javno dostupne generativne AI sustave u saveznoj državi Kaliforniji. Te sustave razvijamo koristeći različite izvore podataka, uključujući javno dostupne podatke, podatke kojima pristupamo u suradnji s trećim stranama te informacije koje naši korisnici ili ljudski treneri i istraživači pružaju ili generiraju. Naše sustave razvijamo i pomoću sintetičkih podataka.
Podatke upotrebljavamo kako bismo našim sustavima pomogli da bolje razumiju ljudski jezik i svijet. To, pak, našim sustavima omogućuje da potiču ljudsku kreativnost, unapređuju znanstvena otkrića i medicinska istraživanja te stotinama milijuna ljudi pomognu poboljšati svakodnevni život. Naši se sustavi razvijaju na skupovima podataka koji sadržavaju bilijune tokena tekstualnog, slikovnog, audiosadržaja i audiovizualnog sadržaja.
Za razvoj naših sustava upotrebljavamo raznolik skup podataka, uključujući podatke koji mogu biti zaštićeni autorskim pravom i podatke u javnoj domeni. Iako poduzimamo korake kako bismo smanjili količinu osobnih podataka u našim skupovima podataka za treniranje, neki naši podaci mogu uključivati osobne podatke i zbirne potrošačke informacije kako su definirani u odjeljku 1798.140 Kalifornijskog građanskog zakonika. Naši korisnici mogu isključiti upotrebu svojeg sadržaja za treniranje, kao i zatražiti uklanjanje određenih osobnih podataka iz odgovora ChatGPT-a, koristeći naš Portal za privatnost. Upotrebljavamo različite tehnike za obradu naših skupova podataka kako bismo poboljšali performanse i točnost naših modela.
Podatke za razvoj naših sustava počeli smo prikupljati otprilike 2018. godine, a nastavljamo ih prikupljati i danas. Naše smo skupove podataka prvi put upotrijebili za razvoj sustava 2021. godine.
Dodatne informacije o razvoju naših sustava mogu se pronaći u našim dokumentima o sustavu.
Sažetak podataka za treniranje u skladu s odjeljkom 3111 Kalifornijskog građanskog zakonika
Ažurirano: yesterday
