Lue lisää siitä, miten kehitämme mallejamme ja käytämme niitä ChatGPT:n kaltaisissa tuotteissa

OpenAI:n perusmallit, mukaan lukien ChatGPT:n taustalla toimivat mallit, kehitetään kolmen ensisijaisen tietolähteen avulla: (1) internetissä julkisesti saatavilla oleva tieto, (2) tieto, johon saamme pääsyn yhteistyössä kolmansien osapuolten kanssa, ja (3) tieto, jota käyttäjämme, ihmiskouluttajat ja tutkijat toimittavat tai tuottavat.

ChatGPT:ssä käytettävien kaltaisten perusmallien kehittämiseen kuuluu useita vaiheita, kuten koulutusdatan valmistelu, valmistava koulutus ja jälkikoulutus sekä jatkuva arviointi ja parantaminen käyttöönoton jälkeen. Näissä vaiheissa voidaan käyttää erilaisia tietoja eri tarkoituksiin, kuten mallin suorituskyvyn, luotettavuuden ja turvallisuuden parantamiseen.

Tässä artikkelissa kerrotaan yleisesti, mitä tietoja käytämme näiden mallien kehittämiseen, miten keräämme ja käytämme tietoja tietosuojalakien mukaisesti sekä millaisia suojatoimia sovellamme koko koulutusprosessin ajan. Lisätietoja siitä, miten keräämme ja käytämme palveluidemme käyttäjien tietoja, mukaan lukien miten voit kieltää ChatGPT-keskustelujesi käytön malliemme parantamiseen, on tietosuojakäytännössämme ja tässä ohjekeskuksen artikkelissa.

Mikä ChatGPT on ja miten se toimii?

ChatGPT on tekoälyyn perustuva palvelu, jota voit käyttää internetin tai sovelluksen kautta. Voit käyttää ChatGPT:tä monenlaisiin tehtäviin, kuten tietojen järjestämiseen ja tiivistämiseen, käännösten tekemisen avuksi, koodauksen, tutkimuksen ja analyysin tukena, monivaiheisten tehtävien suorittamiseen eri työkalujen välillä, kuvien analysointiin tai luomiseen, luovuuden ja ideoiden herättämiseen sekä muihin arjen tehtäviin. ChatGPT on suunniteltu ymmärtämään käyttäjien kysymyksiä ja ohjeita sekä vastaamaan niihin oppimalla kaavoja suurista tietomääristä, kuten tekstistä, kuvista, äänestä ja videosta.

Koulutuksen aikana malli analysoi tämän datan sisäisiä suhteita – esimerkiksi sitä, miten sanat tyypillisesti esiintyvät yhdessä tietyssä kontekstissa – ja käyttää tätä ymmärrystä ennustaakseen vastausta luodessaan seuraavan todennäköisimmän sanan, sana kerrallaan. Teksti voidaan muuntaa pienemmiksi yksiköiksi, joita kutsutaan joskus ”tokeneiksi” ja jotka voivat edustaa kokonaisia sanoja, sanojen osia tai välimerkkejä. Tokenit ovat tekstin rakennuspalikoita, joita malli käsittelee. Samalla tavoin mallit, jotka tuottavat muunlaista sisältöä, kuten kuvia, oppivat koulutusdatasta kaavoja siinä, miten pikselit liittyvät toisiinsa ja niihin liittyviin kuvateksteihin.

Esimerkiksi mallin oppimisprosessin aikana (jota kutsutaan ”koulutukseksi”) mallille voidaan antaa tehtäväksi täydentää lause, kuten: ”Sen sijaan että hän olisi kääntynyt vasemmalle, hän kääntyi ___.” Koulutuksen alkuvaiheessa sen vastaukset ovat pitkälti satunnaisia. Kun malli kuitenkin käsittelee suuria tekstimääriä ja oppii niistä, se oppii tunnistamaan kaavoja ja ennustamaan seuraavan todennäköisimmän sanan entistä paremmin. Tämä prosessi toistetaan miljoonissa lauseissa, jotta mallin ymmärrys tarkentuu ja sen tarkkuus paranee.

Koska lauseen voi täydentää usealla uskottavalla tavalla – esimerkiksi ”Sen sijaan että hän olisi kääntynyt vasemmalle, hän kääntyi oikealle”, ”ympäri” tai ”takaisin” – mallin vastauksiin sisältyy väistämättä jonkin verran satunnaisuutta. Siksi sama kysymys voi tuottaa eri kerroilla erilaisia vastauksia.

Koneoppimismallit koostuvat suurista lukujoukoista, joita kutsutaan ”painoiksi” tai ”parametreiksi”, sekä koodista, joka tulkitsee ja käyttää näitä lukuja. Nämä mallit eivät tallenna tai säilytä kopioita datasta, jolla niitä koulutetaan. Sen sijaan mallin oppiessa sen parametrien arvoja säädetään hieman vastaamaan sen tunnistamia kaavoja. Aiemmassa esimerkissä malli kehittyi satunnaisten sanojen ennustamisesta tarkempiin ennusteisiin – ei tallentamalla koulutuslauseita vaan päivittämällä sisäisiä parametrejaan. Malli ei säilytä kopioita lauseista, kuvista tai äänestä, joita se käsittelee koulutuksen aikana. ChatGPT ei ”kopioi ja liitä” koulutusdatastaan – samalla tavoin kuin opettaja voi laajan opiskelun jälkeen selittää käsitteitä ymmärtämällä ideoiden väliset suhteet ilman, että hän opettelisi alkuperäiset materiaalit ulkoa tai toistaisi niitä sanatarkasti. Kun malli luo vastauksen käyttäjän pyyntöön, se käyttää näitä oppimiaan painoja ennustaakseen ja luodakseen uutta sisältöä.

Millaista tietoa ChatGPT:n opettamiseen käytetään?

Julkisesti saatavilla olevan internet-sisällön osalta käytämme vain tietoa, joka on vapaasti ja avoimesti saatavilla internetissä. Tähän voi kuulua julkisesti saatavilla olevia verkkosivuja, julkisia keskustelufoorumeita, julkisia blogeja, julkisia julkaisuja ja muuta julkisesti saatavilla olevaa verkkosisältöä. Jos esimerkiksi osallistut julkisesti saatavilla olevalle verkkokeskustelufoorumille tai julkaiset julkisen blogin tai muun julkaisun, voimme käyttää tätä julkisesti saatavilla olevaa sisältöä mallin koulutustarkoituksiin. Teemme kuitenkin toimenpiteitä vähentääksemme henkilötietojen käsittelyä koulutusprosessissamme. Kun keräämme julkisesti saatavilla olevaa internet-sisältöä, emme tarkoituksellisesti kerää dataa lähteistä, joiden tiedetään olevan maksumuurien takana, emmekä pimeästä verkosta. Lisäksi käytämme suodattimia poistaaksemme aineistoa, josta emme halua malliemme oppivan, kuten vihapuhetta, aikuisille suunnattua sisältöä, henkilötietoja kokoavia sivustoja ja roskapostia. Jäljelle jäävää tietoa käytetään sitten malliemme kouluttamiseen.

Verkkosivustojen omistajat voivat hallita, saako heidän sivustojensa julkisesti saatavilla olevaan sisältöön päästä koulutuskäyttöä varten, käyttämällä vakiomuotoisia verkkohallintakeinoja, kuten robots.txt-tiedostoa, estääkseen GPTBotin, joka voi indeksoida julkisesti saatavilla olevaa sisältöä malliemme kouluttamisen tueksi. Tarjoamme verkkosivustojen omistajille ohjeita, joiden avulla he voivat hallita, miten heidän sivustonsa ja sisältönsä ovat vuorovaikutuksessa tekoälyjärjestelmiemme kanssa.

Käytämme myös kolmannen osapuolen kumppaneilta saatavaa tietoa malliemme kouluttamiseen ja parantamiseen. Tähän voi kuulua tietoa aineistoista, joihin saamme pääsyn kolmansien osapuolten kanssa tehtyjen sopimusten perusteella, sekä ihmiskouluttajien ja tutkijoiden toimittamaa tai tuottamaa tietoa, kun se on käytäntöjemme ja sopimustemme mukaan sallittua. Tämä auttaa parantamaan malliemme laatua, turvallisuutta ja suorituskykyä. Näihin lähteisiin voi kuulua tekstiä, kuvia, ääntä, videota tai muita datatyyppejä aineistosta riippuen.

Käytämme myös yhä enemmän synteettistä dataa joissakin koulutusprosesseissa. Voimme esimerkiksi käyttää tietoa ja mallejamme synteettisten kehotteiden, monikielisten esimerkkien tai muun koulutusmateriaalin tuottamiseen. Synteettinen data voi auttaa parantamaan mallin suorituskykyä muun muassa täydentämällä koulutusdataa alueilla, joilla dataa on niukasti tai epätasapainoisesti, ja se voi myös tukea tietosuojaa vahvistavia lähestymistapoja mallien kehittämisessä.

Käytetäänkö ChatGPT:n opettamiseen henkilötietoja?

Merkittävä osa verkkosisällöstä käsittelee ihmisiä koskevaa tietoa, joten koulutusdatamme voi satunnaisesti sisältää henkilötietoja. Teemme kuitenkin toimenpiteitä vähentääksemme henkilötietojen käsittelyä koulutusprosessissamme.

Käytämme koulutusdataa mallin kykyjen kehittämiseen – kuten ennustamiseen, päättelyyn ja ongelmanratkaisuun – emme henkilöprofiilien rakentamiseen, henkilöihin yhteyden ottamiseen tai mainosten personointiin heille.

Joissakin tapauksissa mallit voivat oppia henkilötiedoista ymmärtääkseen, miten nimet ja osoitteet toimivat kielessä, tai tunnistaakseen julkisuuden henkilöitä ja tunnettuja toimijoita. Tämä auttaa mallia tuottamaan tarkempia ja kontekstiin paremmin sopivia vastauksia.

Miten henkilötietoja suojataan koulutuksen aikana?

Teemme aktiivisia toimenpiteitä rajoittaaksemme henkilötietojen käsittelyä koulutuksen aikana. Esimerkiksi suljemme pois tunnettuja lähteitä, jotka kokoavat suuria määriä henkilötietoja, käytämme suodatusta henkilötietojen vähentämiseksi koulutusprosessissa ja pyrimme tunnistamaan ja poistamaan päällekkäistä sisältöä vähentääksemme koulutusdatan toistamisen riskiä. Lisäksi koulutamme mallejamme välttämään vastaamista pyyntöihin, jotka koskevat yksityisiä tai arkaluonteisia tietoja henkilöistä.

Kuinka kauan säilytämme tietoja

Säilytämme koulutusdatan sisältämiä tietoja vain niin kauan kuin se on kohtuudella tarpeen tässä artikkelissa ja tietosuojakäytännössämme kuvattuihin tarkoituksiin, mukaan lukien malliemme kehittämiseen ja parantamiseen sekä niihin liittyviin tieteellisiin tutkimustarkoituksiin. Säilytystarvetta arvioidaan säännöllisesti sen varmistamiseksi, että säilyttäminen on edelleen tarpeen, ja säilytysaika vaihtelee tiedon tyypin ja käyttötavan mukaan. Säilytystä määrittäessämme otamme huomioon esimerkiksi tietojen käsittelyn tarkoituksen, tietojen määrän, luonteen ja arkaluonteisuuden, luvattomasta käytöstä tai luovutuksesta mahdollisesti aiheutuvan haitan riskin sekä meitä koskevat lakisääteiset velvoitteet.

Miten ChatGPT:n kehittäminen noudattaa tietosuojalakeja?

Käytämme koulutustietoja lainmukaisesti. Perusmallimme mahdollistavat laajan joukon hyödyllisiä sovelluksia, kuten saavutettavuustyökaluja, asiakastukea, ohjelmistokehitystä, personoitua opetusta ja tieteellistä tutkimusta. Nämä kyvyt perustuvat laajamittaiseen koulutusdataan, kuten julkisesti saatavilla olevaan tietoon ja kolmannen osapuolen kumppaneilta saatavaan tietoon. Sovellamme suojatoimia koko koulutusprosessin ajan, mukaan lukien tässä artikkelissa kuvatut toimet, joiden tarkoituksena on vähentää henkilötietojen käsittelyä koulutusprosessissa ja pienentää riskejä. Perustamme koulutustietoihin sisältyvien henkilötietojen keräämisen ja käytön tietosuojalakien, kuten GDPR:n, mukaisiin oikeutettuihin etuihin, mukaan lukien malliemme kouluttaminen ja parantaminen käyttäjien ja laajemman yhteiskunnan hyväksi tehtävämme mukaisesti, jotta yleinen tekoäly hyödyttää kaikkia, kuten tietosuojakäytännössämme selitetään tarkemmin. Olemme tehneet tietosuojaa koskevan vaikutustenarvioinnin varmistaaksemme osaltaan, että keräämme ja käytämme näitä tietoja lainmukaisesti ja vastuullisesti.

Milloin tietoja voidaan jakaa tai siirtää

Emme ”myy” henkilötietoja, ja luovutamme koulutusdatan sisältämiä henkilötietoja vain tietosuojakäytännössämme kuvatuissa rajatuissa tilanteissa. Voimme esimerkiksi jakaa tietoja tytäryhtiöiden, toimittajien ja palveluntarjoajien kanssa, jotka tukevat malliemme kehittämistä, testaamista ja parantamista. Voimme myös luovuttaa tietoja vilpittömässä uskossa, jos katsomme tällaisen toimen olevan tarpeen lakisääteisen velvoitteen noudattamiseksi tai meidän, käyttäjiemme, työntekijöidemme tai yleisön oikeuksien, turvallisuuden ja tietoturvan suojaamiseksi, kuten tietosuojakäytännössämme kuvataan.

Koska infrastruktuurimme on maailmanlaajuinen, koulutusdatan sisältämiä henkilötietoja voidaan käsitellä ETA:n, Sveitsin tai Yhdistyneen kuningaskunnan ulkopuolisissa maissa (mukaan lukien Yhdysvalloissa). Tällöin sovellamme asianmukaisia suojatoimia, kuten tietosuojan riittävyyttä koskevia päätöksiä tai vakiosopimuslausekkeita, kuten tietosuojakäytännössämme kuvataan.

Oikeutesi ja niiden käyttäminen

Vastaamme vastustamispyyntöihin ja vastaaviin oikeuksien käyttämistä koskeviin pyyntöihin. Kielen oppimisen seurauksena ChatGPT:n vastaukset voivat joskus sisältää henkilötietoja henkilöistä, joiden henkilötietoja esiintyy julkisessa internetissä useita kertoja (esimerkiksi julkisuuden henkilöistä). Tietyillä lainkäyttöalueilla olevat henkilöt voivat vastustaa henkilötietojensa käsittelyä malleissamme tai esittää muita rekisteröidyn oikeuksiin liittyviä pyyntöjä Tietosuojaportaalimme kautta. Voit käyttää näitä oikeuksia myös ottamalla yhteyttä osoitteeseen privacy@openai.com.

Jotta voimme arvioida pyyntösi ja vastata siihen, anna riittävästi tietoja, jotta ymmärrämme, mihin henkilötietoihin pyyntösi liittyy, kuten nimesi, asiaankuuluvat URL-osoitteet, konkreettisia esimerkkejä mallin tuotoksista tai muita tietoja, jotka auttavat tunnistamaan ongelman. Joissakin tapauksissa voimme pyytää sinua vahvistamaan henkilöllisyytesi tai varmistamaan, että tiedot koskevat sinua, ennen kuin voimme ryhtyä toimiin. Lisätietoja näiden pyyntöjen lähettämisestä, mukaan lukien parhaat käytännöt ja se, miten pyynnöt arvioidaan, on saatavilla ohjekeskuksen artikkelissamme, joka käsittelee henkilötietojen poistamista ChatGPT:stä. Arvioimme pyynnöt sovellettavien tietosuojalakien mukaisesti ja vastaamme sovellettavien lakisääteisten määräaikojen puitteissa.

Huomaa, että tietosuojalakien mukaisesti jotkin oikeudet eivät välttämättä ole ehdottomia. Emme esimerkiksi ehkä voi täyttää pyyntöä, jos emme pysty vahvistamaan asiaankuuluvia tietoja, jos pyyntö ei koske OpenAI:n käsittelemiä henkilötietoja, jos poikkeus soveltuu tai jos meillä on muu lainmukainen peruste toimia näin. Pyynnöt arvioidaan tapauskohtaisesti, ja arvioinnissa voidaan punnita tietosuojaoikeuksia suhteessa muihin tärkeisiin näkökohtiin, kuten sananvapauteen ja yleiseen etuun.

Pyrimme kuitenkin asettamaan henkilötietojen suojan etusijalle ja noudatamme kaikkia sovellettavia tietosuojalakeja. Jos koet, ettemme ole käsitelleet asiaa riittävällä tavalla, sinulla on oikeus tehdä valitus paikalliselle valvontaviranomaiselle.

Lisätietoja OpenAI:n käytännöistä, jotka koskevat sinulta tai sinusta keräämiämme henkilötietoja käyttäessäsi verkkosivustoamme, sovelluksiamme ja palveluitamme, on tietosuojakäytännössämme.

Miten ChatGPT ja perusmallimme kehitetään

Mikä ChatGPT on ja miten se toimii?

Millaista tietoa ChatGPT:n opettamiseen käytetään?

Käytetäänkö ChatGPT:n opettamiseen henkilötietoja?

Miten ChatGPT:n kehittäminen noudattaa tietosuojalakeja?

Oliko tästä artikkelista apua?