Miten RFT:n laskutus toimii
Vahvistusoppimiseen perustuva hienosäätö (RFT) antaa sinun optimoida OpenAI:n päättelymallien suorituskykyä vahvistusoppimisen avulla. Toisin kuin valvottu hienosäätö tai preferenssipohjainen hienosäätö, joiden laskutus perustuu koulutusdatan tokenien määrään, RFT:n laskutus perustuu aikaan, jonka koulutusajo käyttää varsinaiseen koneoppimistyöhön.
Tässä oppaassa kerrotaan, mikä lasketaan laskutettavaksi koulutusajaksi, miten käsittelemme tauotuksia ja peruutuksia sekä miten asetuksesi voivat vaikuttaa kustannuksiin.
Hinnoittelu
Laskenta: 100 $ per tunti kellonaikaa, joka käytetään varsinaisessa koulutussilmukassa mallille
o4-mini-2025-04-16. Maksut suhteutetaan sekunnin tarkkuudella ja pyöristetään laskulla kahden desimaalin tarkkuuteen (esim. 2,55 tuntia).Malliarvioijan käyttö: Jos käytät OpenAI-mallia tulosteiden ”arviointiin” koulutuksen aikana, näihin arviointikutsuihin kuluvat tokenit laskutetaan erikseen vakiomuotoisilla API-hinnoillamme koulutuksen päätyttyä.
Laskutamme vain koulutustyöstä, joka todella päivittää malliasi (mitä kutsumme nimellä ”captured forward progress”).
Mistä veloitamme
Veloitamme ajasta, jonka koulutustyöntekijäsi käyttää aktiivisesti mallisi kouluttamiseen, tarkemmin sanottuna:
Näytteiden luominen mallistasi hienosäätöprosessin aikana (niin kutsutut ”rolloutit”)
Näiden tuotosten arviointi yhdellä tai useammalla arvioijalla, jotka olet määrittänyt työhön (lue lisää arvioijista)
Painopäivitysten laskeminen ja soveltaminen arvosanojen perusteella (vastavirta-algoritmi).
Määrittämiesi validointi- eli arviointivaiheiden suorittaminen.
Useimpien arvioijien suorittaminen on ”maksutonta”, eli emme veloita niiden käytöstä erikseen sen ajan lisäksi, jonka ne lisäävät varsinaiseen koulutussilmukkaan. Poikkeuksena ovat malliarvioijat, joiden osalta laskemme myös tokenit, joita ne kuluttavat edellä mainituissa toiminnoissa. Nämä tokenit näkyvät laskullasi erillisenä rivinä. Malliarvioijien kuluttamat tokenit laskutetaan normaaleilla päättelyhinnoilla (OpenAI:n hinnasto).
Mistä emme laskuta
Emme veloita ajasta, joka kuluu:
Datajoukkosi validointiin tai tarkastamiseen ennen koulutuksen alkua.
Datajoukkosi turvallisuustarkistuksiin.
Laskentaresurssien jonossa odottamiseen.
Mallipainojen tai datajoukkojen lataamiseen.
Datajoukkosi valmisteluun (renderöintiin) koulutusmuotoomme.
Hienosäädetyn mallisi koulutuksen jälkeisiin turvallisuusarviointeihin.
Jos koulutustyö menetetään meidän puolellamme tapahtuneen virheen vuoksi (esimerkiksi jos työntekijä kaatuu ja sen on palattava edelliseen tarkistuspisteeseen), sinua ei veloiteta menetetystä laskenta-ajasta tai arvioijatokeneista. Lisää tästä seuraavassa osiossa.
Tallentunut eteneminen ja laskutustapahtumat
Koulutus koostuu monista pienistä malliin tehtävistä päivityksistä. Seuraamme, kuinka moni näistä päivityksistä valmistuu onnistuneesti. Maksut perustuvat näihin onnistuneisiin päivityksiin liittyvään laskenta-aikaan ja arvioijatokeneihin.
Velotus syntyy, kun jokin seuraavista ”laskutustapahtumista” tapahtuu:
Koulutus valmistuu onnistuneesti.
Keskeytät koulutuksen.
Peruutat koulutuksen.
Koulutus epäonnistuu.
Kukin veloitus kattaa edellisen veloituksen jälkeen tehdyn lisätyön. Esimerkiksi:
Jos keskeytät ajon, tallennamme tarkistuspisteen ja veloitamme edellisen veloituksen jälkeen käytetyn laskenta-ajan ja arvioijatokenit.
Kun jatkat, koulutus jatkuu tarkistuspisteestä. Seuraava veloitus (valmistumisen, uuden keskeytyksen, peruutuksen tai epäonnistumisen yhteydessä) kattaa vain jatkamisen jälkeen tehdyn lisätyön.
Jos peruutat ajon, veloitamme peruutukseen asti tehdystä työstä.
Jos koulutus epäonnistuu ja edellisen veloituksen jälkeen tehty työ menetetään, sinua ei veloiteta menetetystä osuudesta.
Tämä ”captured forward progress” -lähestymistapa varmistaa, että maksat vain työstä, joka säilyy mallissasi tai jonka hylkäät tarkoituksella.
Työn edistymisen tarkastelu
RFT-töissä on usage_metrics-niminen kenttä, joka dokumentoi työn kokonaiskäytön nykyiseen vaiheeseen asti. Tämä sisältää koulutukseen käytetyn ajan sekä kaikki tokenit, joita työn kaikki malliarvioijat ovat käyttäneet. Tätä kenttää voi tarkastella API:n kautta (GET /v1/fine_tuning/jobs/{job_id}) tai hienosäädön hallintapaneelissa.
Koulutusajan kestoon vaikuttavat tekijät
Koska laskutus on aikaperusteista, asetuksesi vaikuttavat suoraan kustannuksiin. Keskeisiä tekijöitä ovat:
Ongelmien vaikeus: jos datajoukkosi koostuu vaikeista ongelmista, malli käyttää todennäköisesti enemmän aikaa kunkin ongelman päättelyyn, mikä lisää kunkin näytteen tuottamiseen kuluvaa aikaa.
Laskennan intensiteetti:
compute_multiplier-hyperparametri ohjaa sitä, kuinka paljon laskentaa tehdään koulutuksen vaihetta kohti. Suuremmat arvot kannustavat mallia päättelemään laajemmin jokaisesta datapisteestä, mikä hidastaa jokaista vaihetta.Validointiasetukset:
Suurempi validointijoukko lisää arviointiin kuluvaa aikaa.
eval_samples-arvon kasvattaminen (mallitulosteiden määrä, joka arvioidaan kutakin validointiesimerkkiä kohti) lisää validointiaikaa.Validoinnin ajaminen useammin (pienempi
eval_interval) kasvattaa validointiin kuluvan ajan osuutta.
Arvioijan suorituskyky:
Suuremmilla tai kyvykkäämmillä malliarvioijilla arvosanan palauttaminen kestää kauemmin kuin pienemmillä. Esimerkiksi arviointi päättelymallilla voi kestää 10 kertaa kauemmin kuin arviointi mallilla, joka ei ole päättelymalli.
Monimutkaiset Python-arviointifunktiot suorittuvat hitaammin kuin yksinkertaiset.
Näillä asetuksilla voit tasapainottaa kustannuksia, nopeutta ja mallin laatua. Esimerkiksi tiheä validointi voi havaita ongelmat aiemmin, mutta kasvattaa kustannuksia. Arviointi kehittyneemmällä mallilla voi parantaa arvioinnin tarkkuutta huomattavasti, mutta hidastaa jokaista arviointivaihetta ja tekee töistä kalliimpia.
Kustannusten hallinta
Voit hallita kulujasi näin:
Aloita lyhyemmillä ajoilla ymmärtääksesi, miten asetuksesi vaikuttavat aikaan.
Käytä järkevää määrää validointiesimerkkejä ja
eval_samples-arvoja. Vältä validointia useammin kuin tarvitset.Valitse pienin arvioijamalli, joka täyttää laatuvaatimuksesi.
Pidä mukautetut Python-arvioijat tehokkaina.
Säädä
compute_multiplier-arvoa tasapainottaaksesi konvergenssinopeuden ja kustannukset.Seuraa ajoasi koontinäytössä tai API:n kautta. Voit keskeyttää tai peruuttaa milloin tahansa.
Esimerkit
Onnistunut koulutusajo
| Koulutusaika | Laskutettava aika | Tila | Kuvaus |
|---|---|---|---|
| 00:00 | 00:00 | – | Käyttäjä luo RFT-työn API:n kautta |
| 00:10 | 00:00 | VALIDATING_FILES | 10 minuuttia tietojoukon validointiin |
| 00:30 | 00:00 | VALIDATING_FILES | 20 minuuttia tietojoukon turvallisuustarkistuksiin |
| 01:00 | 00:00 | QUEUED | 30 minuuttia vapaan työntekijäprosessin odottamiseen |
| 01:30 | 00:00 | RUNNING | 30 minuuttia koulutuksen valmisteluun (painojen lataus, esikäsittely jne.) |
| 05:30 | 04:00 | RUNNING | 4 tuntia koulutukseen |
| 06:00 | 04:00 | RUNNING | 30 minuuttia tuloksena syntyneen mallin turvallisuusarviointeihin |
| 06:00 | 04:00 | SUCCEEDED | Koulutus päättyy |
Tässä tapauksessa kokonaiskesto on 6 tuntia, mutta vain 4 tuntia on laskutettavaa. Kustannus olisi 4 tuntia × $100/tunti = $400.
Esimerkki epäonnistuneesta työstä
Tässä esimerkissä ajo kouluttaa 2 tuntia, kirjoittaa tarkistuspisteen, kouluttaa vielä 1 tunnin, mutta epäonnistuu sitten. Vain tarkistuspisteeseen asti tehdyt 2 tuntia koulutusta ovat laskutettavia.
| Koulutusaika | Laskutettava aika | Tila | Kuvaus |
|---|---|---|---|
| 00:00 | 00:00 | – | Käyttäjä luo RFT-työn API:n kautta |
| 00:10 | 00:00 | VALIDATING_FILES | 10 minuuttia tietojoukon validointiin |
| 00:30 | 00:00 | VALIDATING_FILES | 20 minuuttia tietojoukon turvallisuustarkistuksiin |
| 01:00 | 00:00 | QUEUED | 30 minuuttia vapaan työntekijäprosessin odottamiseen |
| 01:30 | 00:00 | RUNNING | 30 minuuttia koulutuksen valmisteluun (painojen lataus, esikäsittely jne.) |
| 03:30 | 02:00 | RUNNING | 2 tuntia koulutukseen |
| 03:30 | 02:00 | RUNNING | Tarkistuspiste luotu vaiheessa 5 |
| 04:30 | 02:00 | RUNNING | Koulutus epäonnistuu sisäisen virheen vuoksi vaiheessa 8 (vielä 1 tunnin jälkeen) |
| 04:30 | 02:00 | RUNNING | 30 minuuttia tarkistuspisteen arviointiin ja validointiin |
| 04:30 | 02:00 | SUCCEEDED | Työ päättyy (uusimmalla tarkistuspisteellä) |
Vaikka koulutukseen käytettiin yhteensä 3 tuntia, vain 2 tuntia on ”tallessa” käyttökelpoisessa tarkistuspisteessä ja laskutetaan. Epäonnistumisen vuoksi menetetty koulutustunti ei ole sinun vastuullasi. Kustannus olisi 2 tuntia × $100/tunti = $200.
Usein kysytyt kysymykset
Milloin veloitus tehdään?
Veloitamme, kun ajo valmistuu, keskeytetään, peruutetaan tai epäonnistuu. Kukin lasku kattaa edellisen laskun jälkeen tehdyn työn.
Maksanko, jos ajo epäonnistuu?
Jos ajo epäonnistuu meidän virheemme vuoksi ja viimeaikaista koulutustyötä menetetään, sinua ei veloiteta menetetystä osuudesta. Jos peruutat ajon, sinua veloitetaan peruutukseen asti tehdystä työstä.
Miten arvioijamallin tokenit laskutetaan?
Laskemme kaikkien määrittämiesi malliarvioijien käyttämät tokenit. Kun koulutus päättyy, laskutamme nämä tokenit vakiomuotoisten tokenikohtaisten hintojemme mukaan.
Voinko keskeyttää ajon ja jatkaa sitä?
Kyllä. Kun keskeytät ajon, tallennamme tarkistuspisteen ja veloitamme siihen mennessä tehdystä työstä. Kun jatkat ajoa, sinua veloitetaan vain jatkamisen jälkeen tehdystä lisätyöstä.
Jos sinulla on muita kysymyksiä Reinforcement Fine‑Tuningin laskutuksesta, ota yhteyttä tukitiimiimme.
