Slik fungerer fakturering for RFT

Reinforcement Fine‑Tuning (RFT) lar deg optimalisere ytelsen til OpenAIs resonneringsmodeller ved hjelp av forsterkende læring. I motsetning til våre tilbud for veiledet finjustering eller preferansefinjustering, som faktureres etter antall token i treningsdatasettet, faktureres RFT basert på tiden treningskjøringen bruker på det sentrale maskinlæringsarbeidet.

Denne veiledningen forklarer hva som regnes som fakturerbar treningstid, hvordan vi håndterer pauser og avbestillinger, og hvordan konfigurasjonsvalgene dine kan påvirke kostnaden.

Priser

Beregning: $100 per time med klokketid brukt i den sentrale treningssløyfen for o4-mini-2025-04-16. Kostnader beregnes proporsjonalt ned til sekundet og avrundes til to desimaler på fakturaen (f.eks. 2,55 timer).
Bruk av modellbedømmer: Hvis du bruker en OpenAI-modell til å «vurdere» utdata under trening, faktureres tokenene som brukes av disse vurderingskallene separat til våre standard API-satser etter at treningen er fullført.

Vi tar bare betalt for treningsarbeid som faktisk oppdaterer modellen din (det vi kaller «fanget fremdrift»).

Hva vi fakturerer for

Vi fakturerer for tiden treningsarbeideren bruker på aktivt å trene modellen din, nærmere bestemt:

Generering av prøver fra modellen din under finjusteringsprosessen (kjent som «rollouts»)
Evaluering av disse utdataene med én eller flere gradere som du har definert i jobben (finn ut mer om gradere)
Beregning og bruk av vektoppdateringer basert på karakterene (tilbakepropagering).
Kjøring av eventuelle valideringstrinn (evaluering) du har konfigurert.

De fleste gradere er «gratis» å kjøre, noe som betyr at vi ikke tar ekstra betalt for bruken av dem utover tiden de bidrar med i kjernetreningsløkken. Unntaket fra dette er modellgradere, der vi også teller tokenene disse graderne bruker under aktivitetene ovenfor. Disse tokenene vises som en egen linjepost på fakturaen din. Token som brukes av modellgradere, faktureres til normale inferenssatser (OpenAI-priser).

Hva vi IKKE fakturerer for

Vi tar ikke betalt for tid brukt på:

Validering eller inspeksjon av datasettet ditt før treningen starter.
Sikkerhetssjekker av datasettet ditt.
Venting i kø på beregningsressurser.
Nedlasting av modellvekter eller datasett.
Klargjøring (rendring) av datasettet ditt til vårt treningsformat.
Sikkerhetsevalueringer av den finjusterte modellen etter trening.

Hvis treningsarbeid går tapt på grunn av en feil fra vår side (for eksempel hvis en arbeider krasjer og må rulle tilbake til et tidligere kontrollpunkt), blir du ikke belastet for den tapte beregningstiden eller bedømmer-tokenene. Flere detaljer om dette i neste avsnitt.

Fanget fremdrift og faktureringshendelser

Trening består av mange små oppdateringer av modellen din. Vi sporer hvor mange av disse oppdateringene som fullføres vellykket. Kostnader er basert på beregningstiden og bedømmer-tokenene knyttet til disse vellykkede oppdateringene.

Vi utsteder en belastning når en av følgende «faktureringshendelser» inntreffer:

Treningen fullføres vellykket.
Du setter treningen på pause.
Du avbryter treningen.
Treningen mislykkes.

Hver belastning dekker det inkrementelle arbeidet som er utført siden forrige belastning. For eksempel:

Hvis du setter en kjøring på pause, lagrer vi et kontrollpunkt og belaster deg for beregningstiden og bedømmer-tokenene som er brukt siden forrige belastning.
Når du gjenopptar, fortsetter treningen fra kontrollpunktet. Den neste belastningen (ved fullføring, en ny pause, avbrudd eller feil) vil bare dekke det ekstra arbeidet som er utført etter gjenopptakelsen.
Hvis du avbryter en kjøring, belaster vi deg for arbeidet som er utført frem til avbruddet.
Hvis treningen mislykkes og arbeid siden forrige belastning går tapt, blir du ikke fakturert for den tapte delen.

Denne tilnærmingen med «fanget fremdrift» sikrer at du bare betaler for arbeid som beholdes i modellen din eller som du bevisst forlater.

Vise jobbfremdrift

RFT-jobber har et felt kalt usage_metrics som dokumenterer jobbens totale bruk frem til gjeldende trinn. Dette inkluderer tiden brukt på trening og alle token brukt på tvers av alle modellgradere i jobben. Dette feltet kan inspiseres via API-et (GET /v1/fine_tuning/jobs/{job_id}) eller via kontrollpanelet for finjustering.

Faktorer som påvirker treningstid

Fordi faktureringen er tidsbasert, påvirker konfigurasjonsvalgene dine kostnaden direkte. Viktige faktorer inkluderer:

Problemvanskelighet: Hvis datasettet ditt består av vanskelige problemer, vil modellen sannsynligvis bruke mer tid på å resonnere over hvert problem, noe som øker tiden det tar å produsere hvert eksempel.
Beregningsintensitet: Hyperparameteren compute_multiplier styrer hvor mye beregning du utfører per treningstrinn. Høyere verdier oppmuntrer modellen til å resonnere mer utførlig over hvert datapunkt, noe som gjør at hvert trinn går tregere.
Valideringsinnstillinger:
- Et større valideringssett øker tiden brukt på evaluering.
- Å øke eval_samples (antall modellutdata som vurderes per valideringseksempel) øker valideringstiden.
- Å kjøre validering oftere (lavere eval_interval) øker andelen tid brukt på validering.
Ytelse for bedømmere:
- Større eller mer kapable modellbedømmere bruker lengre tid på å returnere en vurdering enn mindre modeller. For eksempel kan vurdering med en resonneringsmodell ta 10x lengre tid enn vurdering med en modell uten resonnering.
- Komplekse Python-vurderingsfunksjoner bruker lengre tid på å kjøre enn enkle.

Disse innstillingene lar deg avveie kostnad, hastighet og modellkvalitet. For eksempel kan hyppig validering fange opp problemer tidligere, men øker kostnaden. Vurdering med en mer avansert modell kan drastisk forbedre vurderingsnøyaktigheten, men vil gjøre hvert vurderingstrinn tregere og jobbene dyrere.

Administrere kostnader

For å kontrollere forbruket ditt:

Start med kortere kjøringer for å forstå hvordan konfigurasjonen din påvirker tiden.
Bruk et rimelig antall valideringseksempler og eval_samples. Unngå å validere oftere enn du trenger.
Velg den minste bedømmingsmodellen som oppfyller kvalitetskravene dine.
Hold egendefinerte Python-bedømmere effektive.
Juster compute_multiplier for å balansere konvergenshastighet og kostnad.
Overvåk kjøringen din i dashbordet eller via API-et. Du kan sette på pause eller avbryte når som helst.

Eksempler

Vellykket treningskjøring

Treningstid	Fakturert tid	Status	Beskrivelse
00:00	00:00	–	Brukeren oppretter RFT-jobb via API
00:10	00:00	VALIDATING_FILES	10 minutter brukt på å validere datasettet
00:30	00:00	VALIDATING_FILES	20 minutter brukt på sikkerhetskontroller av datasettet
01:00	00:00	QUEUED	30 minutter venting på en tilgjengelig worker
01:30	00:00	RUNNING	30 minutter på å sette opp trening (laste ned vekter, forhåndsbehandling osv.)
05:30	04:00	RUNNING	4 timer brukt på trening
06:00	04:00	RUNNING	30 minutter brukt på sikkerhetsevalueringer av den resulterende modellen
06:00	04:00	SUCCEEDED	Treningen fullføres

I dette tilfellet er den totale faktiske tiden 6 timer, men bare 4 timer er fakturerbare. Kostnaden ville vært 4 timer × $100/time = $400.

Eksempel på mislykket jobb

I dette eksemplet trener kjøringen i 2 timer, skriver et kontrollpunkt, trener i 1 time til, men mislykkes deretter. Bare de 2 timene med trening frem til kontrollpunktet kan faktureres.

Treningstid	Fakturert tid	Status	Beskrivelse
00:00	00:00	–	Brukeren oppretter RFT-jobb via API
00:10	00:00	VALIDATING_FILES	10 minutter brukt på å validere datasettet
00:30	00:00	VALIDATING_FILES	20 minutter brukt på sikkerhetskontroller av datasettet
01:00	00:00	QUEUED	30 minutter venting på en tilgjengelig worker
01:30	00:00	RUNNING	30 minutter på å sette opp trening (laste ned vekter, forhåndsbehandling osv.)
03:30	02:00	RUNNING	2 timer brukt på trening
03:30	02:00	RUNNING	Kontrollpunkt opprettet ved trinn 5
04:30	02:00	RUNNING	Treningen mislykkes på grunn av en intern feil ved trinn 8 (etter 1 time til)
04:30	02:00	RUNNING	30 minutter brukt på å evaluere og validere kontrollpunktet
04:30	02:00	SUCCEEDED	Jobben fullføres (med siste kontrollpunkt)

Selv om 3 timer ble brukt på trening totalt, er bare 2 timer «fanget opp» i et brukbart kontrollpunkt og faktureres. Timen med treningsarbeid som gikk tapt på grunn av feilen, er ikke ditt ansvar. Kostnaden ville vært 2 timer × $100/time = $200.

Ofte stilte spørsmål

Når blir jeg belastet?

Vi fakturerer når kjøringen er fullført, satt på pause, kansellert eller mislykkes. Hver faktura dekker arbeid som er utført siden forrige faktura.

Betaler jeg hvis en kjøring mislykkes?

Hvis en kjøring mislykkes på grunn av vår feil og nylig treningsarbeid går tapt, blir du ikke belastet for den tapte delen. Hvis du avbryter en kjøring, blir du belastet for arbeidet frem til avbrytelsen.

Hvordan faktureres token for grader-modeller?

Vi teller tokenene som brukes av eventuelle modellgradere du konfigurerer. Etter at treningen er fullført, fakturerer vi disse tokenene til våre standard satser per token.

Kan jeg sette en kjøring på pause og gjenoppta den?

Ja. Når du setter på pause, lagrer vi et kontrollpunkt og belaster deg for arbeidet som er gjort så langt. Når du gjenopptar, belastes du bare for ekstra arbeid som gjøres etter gjenopptakelsen.

Hvis du har andre spørsmål om fakturering for Reinforcement Fine‑Tuning, kan du kontakte kundestøtteteamet vårt.

Faktureringsveiledning for API-et for Reinforcement Fine-Tuning