Miten RFT:n laskutus toimii

Reinforcement Fine‑Tuning (RFT) mahdollistaa OpenAI:n päättelymallien suorituskyvyn optimoinnin vahvistusoppimisen avulla. Toisin kuin valvotun tai preferensseihin perustuvan hienosäädön tarjontamme, jotka laskutetaan koulutusaineiston tokenien määrän mukaan, RFT laskutetaan sen ajan perusteella, jonka koulutusajo käyttää varsinaiseen koneoppimistyöhön.

Tässä oppaassa kerrotaan, mikä lasketaan laskutettavaksi koulutusajaksi, miten käsittelemme tauotuksia ja peruutuksia sekä miten asetuksesi voivat vaikuttaa kustannuksiin.

Hinnoittelu

Laskenta: 100 $ per tunti kellonaikaa, joka käytetään varsinaisessa koulutussilmukassa mallille o4-mini-2025-04-16. Maksut suhteutetaan sekunnin tarkkuudella ja pyöristetään laskulla kahden desimaalin tarkkuuteen (esim. 2,55 tuntia).
Malliarvioijan käyttö: Jos käytät OpenAI-mallia tulosteiden ”arviointiin” koulutuksen aikana, näihin arviointikutsuihin kuluvat tokenit laskutetaan erikseen vakiomuotoisilla API-hinnoillamme koulutuksen päätyttyä.

Laskutamme vain koulutustyöstä, joka todella päivittää malliasi (mitä kutsumme nimellä ”captured forward progress”).

Mistä veloitamme

Veloitamme ajasta, jonka koulutustyöntekijäsi käyttää aktiivisesti mallisi kouluttamiseen, tarkemmin sanottuna:

Näytteiden luominen mallistasi hienosäätöprosessin aikana (niin kutsutut ”rolloutit”)
Näiden tuotosten arviointi yhdellä tai useammalla arvioijalla, jotka olet määrittänyt työhön (lue lisää arvioijista)
Painopäivitysten laskeminen ja soveltaminen arvosanojen perusteella (vastavirta-algoritmi).
Määrittämiesi validointi- eli arviointivaiheiden suorittaminen.

Useimpien arvioijien suorittaminen on ”maksutonta”, eli emme veloita niiden käytöstä erikseen sen ajan lisäksi, jonka ne lisäävät varsinaiseen koulutussilmukkaan. Poikkeuksena ovat malliarvioijat, joiden osalta laskemme myös tokenit, joita ne kuluttavat edellä mainituissa toiminnoissa. Nämä tokenit näkyvät laskullasi erillisenä rivinä. Malliarvioijien kuluttamat tokenit laskutetaan normaaleilla päättelyhinnoilla (OpenAI:n hinnasto).

Mistä emme laskuta

Emme veloita ajasta, joka kuluu:

Datajoukkosi validointiin tai tarkastamiseen ennen koulutuksen alkua.
Datajoukkosi turvallisuustarkistuksiin.
Laskentaresurssien jonossa odottamiseen.
Mallipainojen tai datajoukkojen lataamiseen.
Datajoukkosi valmisteluun (renderöintiin) koulutusmuotoomme.
Hienosäädetyn mallisi koulutuksen jälkeisiin turvallisuusarviointeihin.

Jos koulutustyö menetetään meidän puolellamme tapahtuneen virheen vuoksi (esimerkiksi jos työntekijä kaatuu ja sen on palattava edelliseen tarkistuspisteeseen), sinua ei veloiteta menetetystä laskenta-ajasta tai arvioijatokeneista. Lisää tästä seuraavassa osiossa.

Tallentunut eteneminen ja laskutustapahtumat

Koulutus koostuu monista pienistä malliin tehtävistä päivityksistä. Seuraamme, kuinka moni näistä päivityksistä valmistuu onnistuneesti. Maksut perustuvat näihin onnistuneisiin päivityksiin liittyvään laskenta-aikaan ja arvioijatokeneihin.

Velotus syntyy, kun jokin seuraavista ”laskutustapahtumista” tapahtuu:

Koulutus valmistuu onnistuneesti.
Keskeytät koulutuksen.
Peruutat koulutuksen.
Koulutus epäonnistuu.

Kukin veloitus kattaa edellisen veloituksen jälkeen tehdyn lisätyön. Esimerkiksi:

Jos keskeytät ajon, tallennamme tarkistuspisteen ja veloitamme edellisen veloituksen jälkeen käytetyn laskenta-ajan ja arvioijatokenit.
Kun jatkat, koulutus jatkuu tarkistuspisteestä. Seuraava veloitus (valmistumisen, uuden keskeytyksen, peruutuksen tai epäonnistumisen yhteydessä) kattaa vain jatkamisen jälkeen tehdyn lisätyön.
Jos peruutat ajon, veloitamme peruutukseen asti tehdystä työstä.
Jos koulutus epäonnistuu ja edellisen veloituksen jälkeen tehty työ menetetään, sinua ei veloiteta menetetystä osuudesta.

Tämä ”captured forward progress” -lähestymistapa varmistaa, että maksat vain työstä, joka säilyy mallissasi tai jonka hylkäät tarkoituksella.

Työn edistymisen tarkastelu

RFT-töissä on usage_metrics-niminen kenttä, joka dokumentoi työn kokonaiskäytön nykyiseen vaiheeseen asti. Tämä sisältää koulutukseen käytetyn ajan sekä kaikki tokenit, joita työn kaikki malliarvioijat ovat käyttäneet. Tätä kenttää voi tarkastella API:n kautta (GET /v1/fine_tuning/jobs/{job_id}) tai hienosäädön hallintapaneelissa.

Koulutusajan kestoon vaikuttavat tekijät

Koska laskutus on aikaperusteista, asetuksesi vaikuttavat suoraan kustannuksiin. Keskeisiä tekijöitä ovat:

Ongelmien vaikeus: jos datajoukkosi koostuu vaikeista ongelmista, malli käyttää todennäköisesti enemmän aikaa kunkin ongelman päättelyyn, mikä lisää kunkin näytteen tuottamiseen kuluvaa aikaa.
Laskennan intensiteetti: compute_multiplier-hyperparametri ohjaa sitä, kuinka paljon laskentaa tehdään koulutuksen vaihetta kohti. Suuremmat arvot kannustavat mallia päättelemään laajemmin jokaisesta datapisteestä, mikä hidastaa jokaista vaihetta.
Validointiasetukset:
- Suurempi validointijoukko lisää arviointiin kuluvaa aikaa.
- eval_samples-arvon kasvattaminen (mallitulosteiden määrä, joka arvioidaan kutakin validointiesimerkkiä kohti) lisää validointiaikaa.
- Validoinnin ajaminen useammin (pienempi eval_interval) kasvattaa validointiin kuluvan ajan osuutta.
Arvioijan suorituskyky:
- Suuremmilla tai kyvykkäämmillä malliarvioijilla arvosanan palauttaminen kestää kauemmin kuin pienemmillä. Esimerkiksi arviointi päättelymallilla voi kestää 10 kertaa kauemmin kuin arviointi mallilla, joka ei ole päättelymalli.
- Monimutkaiset Python-arviointifunktiot suorittuvat hitaammin kuin yksinkertaiset.

Näillä asetuksilla voit tasapainottaa kustannuksia, nopeutta ja mallin laatua. Esimerkiksi tiheä validointi voi havaita ongelmat aiemmin, mutta kasvattaa kustannuksia. Arviointi kehittyneemmällä mallilla voi parantaa arvioinnin tarkkuutta huomattavasti, mutta hidastaa jokaista arviointivaihetta ja tekee töistä kalliimpia.

Kustannusten hallinta

Voit hallita kulujasi näin:

Aloita lyhyemmillä ajoilla ymmärtääksesi, miten asetuksesi vaikuttavat aikaan.
Käytä järkevää määrää validointiesimerkkejä ja eval_samples-arvoja. Vältä validointia useammin kuin tarvitset.
Valitse pienin arvioijamalli, joka täyttää laatuvaatimuksesi.
Pidä mukautetut Python-arvioijat tehokkaina.
Säädä compute_multiplier-arvoa tasapainottaaksesi konvergenssinopeuden ja kustannukset.
Seuraa ajoasi koontinäytössä tai API:n kautta. Voit keskeyttää tai peruuttaa milloin tahansa.

Esimerkit

Onnistunut koulutusajo

Koulutusaika	Laskutettava aika	Tila	Kuvaus
00:00	00:00	–	Käyttäjä luo RFT-työn API:n kautta
00:10	00:00	VALIDATING_FILES	10 minuuttia tietojoukon validointiin
00:30	00:00	VALIDATING_FILES	20 minuuttia tietojoukon turvallisuustarkistuksiin
01:00	00:00	QUEUED	30 minuuttia vapaan työntekijäprosessin odottamiseen
01:30	00:00	RUNNING	30 minuuttia koulutuksen valmisteluun (painojen lataus, esikäsittely jne.)
05:30	04:00	RUNNING	4 tuntia koulutukseen
06:00	04:00	RUNNING	30 minuuttia tuloksena syntyneen mallin turvallisuusarviointeihin
06:00	04:00	SUCCEEDED	Koulutus päättyy

Tässä tapauksessa kokonaiskesto on 6 tuntia, mutta vain 4 tuntia on laskutettavaa. Kustannus olisi 4 tuntia × $100/tunti = $400.

Esimerkki epäonnistuneesta työstä

Tässä esimerkissä ajo kouluttaa 2 tuntia, kirjoittaa tarkistuspisteen, kouluttaa vielä 1 tunnin, mutta epäonnistuu sitten. Vain tarkistuspisteeseen asti tehdyt 2 tuntia koulutusta ovat laskutettavia.

Koulutusaika	Laskutettava aika	Tila	Kuvaus
00:00	00:00	–	Käyttäjä luo RFT-työn API:n kautta
00:10	00:00	VALIDATING_FILES	10 minuuttia tietojoukon validointiin
00:30	00:00	VALIDATING_FILES	20 minuuttia tietojoukon turvallisuustarkistuksiin
01:00	00:00	QUEUED	30 minuuttia vapaan työntekijäprosessin odottamiseen
01:30	00:00	RUNNING	30 minuuttia koulutuksen valmisteluun (painojen lataus, esikäsittely jne.)
03:30	02:00	RUNNING	2 tuntia koulutukseen
03:30	02:00	RUNNING	Tarkistuspiste luotu vaiheessa 5
04:30	02:00	RUNNING	Koulutus epäonnistuu sisäisen virheen vuoksi vaiheessa 8 (vielä 1 tunnin jälkeen)
04:30	02:00	RUNNING	30 minuuttia tarkistuspisteen arviointiin ja validointiin
04:30	02:00	SUCCEEDED	Työ päättyy (uusimmalla tarkistuspisteellä)

Vaikka koulutukseen käytettiin yhteensä 3 tuntia, vain 2 tuntia on ”tallessa” käyttökelpoisessa tarkistuspisteessä ja laskutetaan. Epäonnistumisen vuoksi menetetty koulutustunti ei ole sinun vastuullasi. Kustannus olisi 2 tuntia × $100/tunti = $200.

Usein kysytyt kysymykset

Milloin veloitus tehdään?

Veloitamme, kun ajo valmistuu, keskeytetään, peruutetaan tai epäonnistuu. Kukin lasku kattaa edellisen laskun jälkeen tehdyn työn.

Maksanko, jos ajo epäonnistuu?

Jos ajo epäonnistuu meidän virheemme vuoksi ja viimeaikaista koulutustyötä menetetään, sinua ei veloiteta menetetystä osuudesta. Jos peruutat ajon, sinua veloitetaan peruutukseen asti tehdystä työstä.

Miten arvioijamallin tokenit laskutetaan?

Laskemme kaikkien määrittämiesi malliarvioijien käyttämät tokenit. Kun koulutus päättyy, laskutamme nämä tokenit vakiomuotoisten tokenikohtaisten hintojemme mukaan.

Voinko keskeyttää ajon ja jatkaa sitä?

Kyllä. Kun keskeytät ajon, tallennamme tarkistuspisteen ja veloitamme siihen mennessä tehdystä työstä. Kun jatkat ajoa, sinua veloitetaan vain jatkamisen jälkeen tehdystä lisätyöstä.

Jos sinulla on muita kysymyksiä Reinforcement Fine‑Tuningin laskutuksesta, ota yhteyttä tukitiimiimme.

Reinforcement Fine-Tuning API:n laskutusopas