Huomautus: Viimeaikainen oikeudellinen kehitys voi vaikuttaa tiettyjen palvelujen tietojen säilytykseen – katso lisätietoja blogikirjoituksestamme.
OpenAI:n perusmallit, mukaan lukien ChatGPT:n taustalla toimivat mallit, kehitetään kolmen ensisijaisen tietolähteen avulla: (1) internetissä julkisesti saatavilla oleva tieto, (2) tieto, jonka käyttöoikeuden saamiseksi teemme yhteistyötä kolmansien osapuolten kanssa, ja (3) tieto, jota käyttäjämme, ihmiskouluttajat ja tutkijat tarjoavat tai luovat.
Tässä artikkelissa annetaan yleiskatsaus julkisesti saatavilla olevaan tietoon, jota käytämme näiden mallien kehittämisen tukena, sekä siihen, miten keräämme ja käytämme tätä tietoa tietosuojalakien mukaisesti. Jos haluat ymmärtää, miten keräämme ja käytämme palvelujemme käyttäjiltä saatua tietoa, mukaan lukien miten voit kieltäytyä siitä, että ChatGPT-keskusteluja käytetään malliemme opettamisen tukena, tutustu tietosuojakäytäntöömme ja tähän ohjekeskuksen artikkeliin.
Mikä ChatGPT on ja miten se toimii?
ChatGPT on tekoälyyn perustuva palvelu, jota voit käyttää internetin kautta. Voit käyttää ChatGPT:tä monenlaisiin tehtäviin, kuten tietojen järjestämiseen ja tiivistämiseen, käännösten avustamiseen, kuvien analysointiin tai luomiseen, luovuuden ja ideoiden inspiroimiseen sekä muihin arjen toimintoihin. ChatGPT on suunniteltu ymmärtämään käyttäjien kysymyksiä ja ohjeita sekä vastaamaan niihin oppimalla malleja suurista tietomääristä, kuten tekstistä, kuvista, äänestä ja videosta. Koulutuksen aikana malli analysoi tämän datan sisäisiä suhteita – esimerkiksi sitä, miten sanat yleensä esiintyvät yhdessä kontekstissa – ja käyttää tätä ymmärrystä ennustaakseen vastauksen luodessaan seuraavan todennäköisimmän sanan, sana kerrallaan. Vastaavasti mallit, jotka luovat muunlaista sisältöä, kuten kuvia, oppivat malleja siitä, miten pikselit liittyvät toisiinsa ja koulutusdatassa oleviin kuvateksteihin.
Esimerkiksi mallin oppimisprosessin (jota kutsutaan ”koulutukseksi”) aikana mallille saatetaan antaa tehtäväksi täydentää lause, kuten: ”Sen sijaan että hän olisi kääntynyt vasemmalle, hän kääntyi ___.” Koulutuksen alkuvaiheessa sen vastaukset ovat suurelta osin satunnaisia. Kun malli kuitenkin käsittelee ja oppii suuresta tekstimäärästä, se kehittyy paremmaksi tunnistamaan malleja ja ennustamaan todennäköisimmän seuraavan sanan. Tätä prosessia toistetaan miljoonien lauseiden läpi, jotta mallin ymmärrys tarkentuu ja sen täsmällisyys paranee.
Koska lauseen täydentämiseen on useita uskottavia tapoja – kuten ”Sen sijaan että hän olisi kääntynyt vasemmalle, hän kääntyi oikealle”, ”ympäri” tai ”takaisin” – mallin vastauksiin sisältyy luontaisesti satunnaisuutta. Tämän seurauksena sama kysymys voi tuottaa eri vastauksia eri kyselykerroilla.
Koneoppimismallit koostuvat suurista lukujoukoista, joita kutsutaan ”painoiksi” tai ”parametreiksi”, sekä koodista, joka tulkitsee ja käyttää näitä lukuja. Nämä mallit eivät tallenna tai säilytä kopioita datasta, jolla niitä on koulutettu. Sen sijaan mallin oppiessa sen parametrien arvoja säädetään hieman vastaamaan malleja, jotka se on tunnistanut. Aiemmassa esimerkissä malli kehittyi satunnaisten sanojen ennustamisesta tarkempiin ennusteisiin – ei tallentamalla koulutuslauseita, vaan päivittämällä sisäisiä parametrejaan. Malli ei säilytä kopioita lauseista, kuvista tai äänestä, joita se käsittelee koulutuksen aikana. ChatGPT ei ”kopioi ja liitä” koulutusdatastaan – samoin kuin opettaja voi laajan opiskelun jälkeen selittää käsitteitä ymmärtämällä ideoiden välisiä suhteita ilman, että hän opettelee alkuperäiset materiaalit ulkoa tai toistaa niitä sanasta sanaan. Kun malli luo vastauksen käyttäjän pyyntöön, se käyttää näitä oppimiaan painoja ennustaakseen ja luodakseen uutta sisältöä.
Millaista julkista tietoa käytetään ChatGPT:n opettamiseen?
Julkisesti saatavilla olevan internet-sisällön osalta käytämme vain tietoa, joka on internetissä vapaasti ja avoimesti saatavilla. Emme tarkoituksellisesti kerää dataa lähteistä, joiden tiedetään olevan maksumuurien takana, emmekä pimeästä verkosta. Lisäksi käytämme suodattimia poistaaksemme aineistoa, josta emme halua malliemme oppivan, kuten vihapuhetta, aikuisviihdesisältöä, henkilötietoja kokoavia sivustoja ja roskapostia. Jäljelle jääviä tietoja käytetään sitten malliemme kouluttamiseen.
Käytetäänkö henkilötietoja ChatGPT:n opettamiseen?
Merkittävä osa verkossa olevasta sisällöstä sisältää tietoja ihmisistä, joten koulutusdatamme saattaa sisältää henkilötietoja satunnaisesti. Emme kuitenkaan tarkoituksellisesti kerää henkilötietoja malliemme kouluttamista varten.
Käytämme koulutusdataa mallin kyvykkyyksien kehittämiseen – kuten ennustamiseen, päättelyyn ja ongelmanratkaisuun – emme käyttäjäprofiilien rakentamiseen, yhteyden ottamiseen yksittäisiin henkilöihin emmekä osana mainonta- tai markkinointitoimiamme.
Joissakin tapauksissa mallit voivat oppia henkilötiedoista ymmärtääkseen, miten esimerkiksi nimet ja osoitteet toimivat kielessä, tai tunnistaakseen julkisuuden henkilöitä ja tunnettuja toimijoita. Tämä auttaa mallia luomaan tarkempia ja kontekstiin paremmin sopivia vastauksia.
Ryhdymme aktiivisiin toimiin rajoittaaksemme henkilötietojen käsittelyä koulutuksen aikana. Esimerkiksi jätämme pois lähteet, jotka kokoavat suuria määriä henkilötietoja, ja koulutamme mallimme välttämään vastaamista pyyntöihin, jotka koskevat yksityisiä tai arkaluonteisia tietoja yksittäisistä henkilöistä.
Miten ChatGPT:n kehittäminen noudattaa tietosuojalakeja?
Käytämme koulutustietoja lainmukaisesti. Perusmallimme mahdollistavat laajan joukon hyödyllisiä sovelluksia – sisällöntuotannosta ja asiakastuesta ohjelmistokehitykseen, yksilölliseen opetukseen ja tieteelliseen tutkimukseen. Nämä kyvykkyydet edellyttävät laajamittaista koulutusdataa. Malliemme kouluttamiseen käytetty tieto on julkisesti saatavilla, eikä sen tarkoituksena ole aiheuttaa haittaa yksilöille. Perustamme koulutustietoihin sisältyvien henkilötietojen keräämisen ja käytön tietosuojalakien, kuten GDPR:n, mukaisiin oikeutettuihin etuihin, kuten tietosuojakäytännössämme selitetään tarkemmin. Olemme tehneet tietosuojaa koskevan vaikutustenarvioinnin varmistaaksemme, että keräämme ja käytämme näitä tietoja laillisesti ja vastuullisesti.
Vastaamme vastustamispyyntöihin ja vastaaviin oikeuksiin liittyviin pyyntöihin. Kielen oppimisen seurauksena ChatGPT:n vastaukset saattavat joskus sisältää henkilötietoja henkilöistä, joiden henkilötietoja esiintyy julkisessa internetissä useita kertoja (esimerkiksi julkisuuden henkilöistä). Tietyillä lainkäyttöalueilla olevat henkilöt voivat vastustaa henkilötietojensa käsittelyä malleissamme tai esittää muita rekisteröidyn oikeuksiin liittyviä pyyntöjä Tietosuojaportaalimme kautta. Voit käyttää näitä oikeuksia myös ottamalla yhteyttä osoitteeseen dsar@openai.com.
Huomaathan, että tietosuojalakien mukaisesti jotkin oikeudet eivät välttämättä ole ehdottomia. Saatamme hylätä pyynnön, jos meillä on siihen lainmukainen peruste. Pyrimme kuitenkin asettamaan henkilötietojen suojan etusijalle ja noudattamaan kaikkia sovellettavia tietosuojalakeja. Jos sinusta tuntuu, ettemme ole käsitelleet asiaa riittävästi, sinulla on oikeus tehdä valitus paikalliselle valvontaviranomaisellesi.
Lisätietoja OpenAI:n käytännöistä, jotka koskevat sinulta tai sinusta keräämiämme henkilötietoja käyttäessäsi verkkosivustoamme, sovelluksiamme ja palvelujamme, saat tutustumalla tietosuojakäytäntöömme.
