Slik fungerer fakturering for RFT
Reinforcement Fine‑Tuning (RFT) lar deg optimalisere ytelsen til OpenAIs resonneringsmodeller ved hjelp av forsterkende læring. I motsetning til våre tilbud for veiledet finjustering eller preferansefinjustering, som faktureres etter antall token i treningsdatasettet, faktureres RFT basert på tiden treningskjøringen bruker på å utføre det sentrale maskinlæringsarbeidet.
Denne veiledningen forklarer hva som regnes som fakturerbar treningstid, hvordan vi håndterer pauser og avbestillinger, og hvordan konfigurasjonsvalgene dine kan påvirke kostnaden.
Priser
Beregning: $100 per time med klokketid brukt i den sentrale treningssløyfen for
o4-mini-2025-04-16. Kostnader beregnes proporsjonalt ned til sekundet og avrundes til to desimaler på fakturaen (f.eks. 2,55 timer).Bruk av modellbedømmer: Hvis du bruker en OpenAI-modell til å «vurdere» utdata under trening, faktureres tokenene som brukes av disse vurderingskallene separat til våre standard API-satser etter at treningen er fullført.
Vi tar bare betalt for treningsarbeid som faktisk oppdaterer modellen din (det vi kaller «fanget fremdrift»).
Hva vi fakturerer for
Vi fakturerer for tiden treningsarbeideren din bruker på aktivt å trene modellen din, nærmere bestemt:
Generering av eksempler fra modellen din under finjusteringsprosessen (kjent som «rollouts»)
Evaluering av disse utdataene med én eller flere bedømmere som du har definert for jobben (les mer om bedømmere)
Beregning og bruk av vektoppdateringer basert på vurderingene (bakoverpropagering).
Kjøring av eventuelle valideringstrinn (evalueringstrinn) du har konfigurert.
De fleste bedømmere er «gratis» å kjøre, noe som betyr at vi ikke tar ekstra betalt for bruk av dem utover tiden de bidrar med i den sentrale treningssløyfen. Unntaket er modellbedømmere, der vi også teller tokenene disse bedømmerne bruker under aktivitetene ovenfor. Disse tokenene vises som en egen linjepost på fakturaen din. Token brukt av modellbedømmere faktureres til vanlige inferenssatser (OpenAI-priser).
Hva vi IKKE fakturerer for
Vi tar ikke betalt for tid brukt på:
Validering eller inspeksjon av datasettet ditt før treningen starter.
Sikkerhetssjekker av datasettet ditt.
Venting i kø på beregningsressurser.
Nedlasting av modellvekter eller datasett.
Klargjøring (rendring) av datasettet ditt til vårt treningsformat.
Sikkerhetsevalueringer av den finjusterte modellen etter trening.
Hvis treningsarbeid går tapt på grunn av en feil fra vår side (for eksempel hvis en arbeider krasjer og må rulle tilbake til et tidligere kontrollpunkt), blir du ikke belastet for den tapte beregningstiden eller bedømmer-tokenene. Flere detaljer om dette i neste avsnitt.
Fanget fremdrift og faktureringshendelser
Trening består av mange små oppdateringer av modellen din. Vi sporer hvor mange av disse oppdateringene som fullføres vellykket. Kostnader er basert på beregningstiden og bedømmer-tokenene knyttet til disse vellykkede oppdateringene.
Vi utsteder en belastning når en av følgende «faktureringshendelser» inntreffer:
Treningen fullføres vellykket.
Du setter treningen på pause.
Du avbryter treningen.
Treningen mislykkes.
Hver belastning dekker det inkrementelle arbeidet som er utført siden forrige belastning. For eksempel:
Hvis du setter en kjøring på pause, lagrer vi et kontrollpunkt og belaster deg for beregningstiden og bedømmer-tokenene som er brukt siden forrige belastning.
Når du gjenopptar, fortsetter treningen fra kontrollpunktet. Den neste belastningen (ved fullføring, en ny pause, avbrudd eller feil) vil bare dekke det ekstra arbeidet som er utført etter gjenopptakelsen.
Hvis du avbryter en kjøring, belaster vi deg for arbeidet som er utført frem til avbruddet.
Hvis treningen mislykkes og arbeid siden forrige belastning går tapt, blir du ikke fakturert for den tapte delen.
Denne tilnærmingen med «fanget fremdrift» sikrer at du bare betaler for arbeid som beholdes i modellen din eller som du bevisst forlater.
Se jobbprogresjon
RFT-jobber har et felt kalt usage_metrics som dokumenterer jobbens totale bruk frem til gjeldende trinn. Dette inkluderer tiden brukt på trening og alle token brukt på tvers av alle modellbedømmere i jobben. Dette feltet kan inspiseres via API-et (GET /v1/fine_tuning/jobs/{job_id}) eller via dashbordet for finjustering.
Faktorer som påvirker treningstid
Fordi faktureringen er tidsbasert, påvirker konfigurasjonsvalgene dine kostnaden direkte. Viktige faktorer inkluderer:
Problemvanskelighet: Hvis datasettet ditt består av vanskelige problemer, vil modellen sannsynligvis bruke mer tid på å resonnere over hvert problem, noe som øker tiden det tar å produsere hvert eksempel.
Beregningsintensitet: Hyperparameteren
compute_multiplierstyrer hvor mye beregning du utfører per treningstrinn. Høyere verdier oppmuntrer modellen til å resonnere mer utførlig over hvert datapunkt, noe som gjør at hvert trinn går tregere.Valideringsinnstillinger:
Et større valideringssett øker tiden brukt på evaluering.
Å øke
eval_samples(antall modellutdata som vurderes per valideringseksempel) øker valideringstiden.Å kjøre validering oftere (lavere
eval_interval) øker andelen tid brukt på validering.
Ytelse for bedømmere:
Større eller mer kapable modellbedømmere bruker lengre tid på å returnere en vurdering enn mindre modeller. For eksempel kan vurdering med en resonneringsmodell ta 10x lengre tid enn vurdering med en modell uten resonnering.
Komplekse Python-vurderingsfunksjoner bruker lengre tid på å kjøre enn enkle.
Disse innstillingene lar deg avveie kostnad, hastighet og modellkvalitet. For eksempel kan hyppig validering fange opp problemer tidligere, men øker kostnaden. Vurdering med en mer avansert modell kan drastisk forbedre vurderingsnøyaktigheten, men vil gjøre hvert vurderingstrinn tregere og jobbene dyrere.
Administrere kostnader
For å kontrollere forbruket ditt:
Start med kortere kjøringer for å forstå hvordan konfigurasjonen din påvirker tiden.
Bruk et rimelig antall valideringseksempler og
eval_samples. Unngå å validere oftere enn du trenger.Velg den minste bedømmingsmodellen som oppfyller kvalitetskravene dine.
Hold egendefinerte Python-bedømmere effektive.
Juster
compute_multiplierfor å balansere konvergenshastighet og kostnad.Overvåk kjøringen din i dashbordet eller via API-et. Du kan sette på pause eller avbryte når som helst.
Eksempler
Vellykket treningskjøring
| Treningstid | Fakturert tid | Status | Beskrivelse |
| 00 : 00 | 00 : 00 | – | Bruker oppretter RFT-jobb via API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minutter brukt på å validere datasett |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minutter brukt på sikkerhetssjekker av datasett |
| 01 : 00 | 00 : 00 | QUEUED | 30 minutter venting på en tilgjengelig arbeider |
| 01 : 30 | 00 : 00 | RUNNING | 30 minutter brukt på å sette opp trening (laste ned vekter, forhåndsbehandle osv.) |
| 05 : 30 | 04 : 00 | RUNNING | 4 timer brukt på trening |
| 06 : 00 | 04 : 00 | RUNNING | 30 minutter brukt på sikkerhetsevalueringer av den resulterende modellen |
| 06 : 00 | 04 : 00 | SUCCEEDED | Treningen fullføres |
I dette tilfellet er den totale klokketiden 6 timer, men bare 4 timer er fakturerbare. Kostnaden blir 4 timer × $100/time = $400.
Eksempel på mislykket jobb
I dette eksempelet trener kjøringen i 2 timer, skriver et kontrollpunkt, trener i 1 time til, men mislykkes deretter. Bare de 2 timene med trening frem til kontrollpunktet er fakturerbare.
| Treningstid | Fakturert tid | Status | Beskrivelse |
| 00 : 00 | 00 : 00 | – | Bruker oppretter RFT-jobb via API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minutter brukt på å validere datasett |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minutter brukt på sikkerhetssjekker av datasett |
| 01 : 00 | 00 : 00 | QUEUED | 30 minutter venting på en tilgjengelig arbeider |
| 01 : 30 | 00 : 00 | RUNNING | 30 minutter brukt på å sette opp trening (laste ned vekter, forhåndsbehandle osv.) |
| 03 : 30 | 02 : 00 | RUNNING | 2 timer brukt på trening |
| 03 : 30 | 02 : 00 | RUNNING | Kontrollpunkt opprettet ved trinn 5 |
| 04 : 30 | 02 : 00 | RUNNING | Treningen mislykkes på grunn av intern feil ved trinn 8 (etter 1 time til) |
| 04 : 30 | 02 : 00 | RUNNING | 30 minutter brukt på å evaluere og validere kontrollpunktet |
| 04 : 30 | 02 : 00 | SUCCEEDED | Jobben fullføres (med nyeste kontrollpunkt) |
Selv om det totalt ble brukt 3 timer på trening, er bare 2 timer «fanget» i et brukbart kontrollpunkt og faktureres. Timen med treningsarbeid som gikk tapt på grunn av feilen, er ikke ditt ansvar. Kostnaden blir 2 timer × $100/time = $200.
Ofte stilte spørsmål
Når blir jeg belastet?
Vi fakturerer når kjøringen din fullføres, settes på pause, avbrytes eller mislykkes. Hver faktura dekker arbeid utført siden forrige faktura.
Må jeg betale hvis en kjøring mislykkes?
Hvis en kjøring mislykkes på grunn av en feil fra vår side og nylig treningsarbeid går tapt, blir du ikke belastet for den tapte delen. Hvis du avbryter en kjøring, blir du belastet for arbeid frem til avbruddet.
Hvordan faktureres token for bedømmermodeller?
Vi teller tokenene som brukes av alle modellbedømmere du konfigurerer. Etter at treningen er ferdig, fakturerer vi disse tokenene til våre standard satser per token.
Kan jeg pause og gjenoppta en kjøring?
Ja. Når du setter på pause, lagrer vi et kontrollpunkt og belaster for arbeidet som er utført så langt. Når du gjenopptar, blir du bare belastet for ekstra arbeid som er utført etter gjenopptakelsen.
Hvis du har andre spørsmål om fakturering for Reinforcement Fine‑Tuning, kan du kontakte supportteamet vårt.
