Hoe facturering voor RFT werkt

Met Reinforcement Fine‑Tuning (RFT) kun je de prestaties van de redenerende modellen van OpenAI optimaliseren met reinforcement learning. Anders dan bij onze supervised of preference fine‑tuning-aanbiedingen, die worden gefactureerd op basis van het aantal tokens in de trainingsdataset, wordt RFT gefactureerd op basis van de tijd die je trainingsrun besteedt aan het uitvoeren van de kernwerkzaamheden voor machine learning.

In deze handleiding wordt uitgelegd wat telt als factureerbare trainingstijd, hoe we omgaan met pauzes en annuleringen, en hoe je configuratiekeuzes de kosten kunnen beïnvloeden.

Prijzen

Compute: $100 per uur wandkloktijd besteed in de kerntrainingslus voor o4-mini-2025-04-16. Kosten worden naar rato per seconde berekend en op de factuur afgerond op twee decimalen (bijv. 2,55 uur).
Gebruik van model graders: Als je een OpenAI-model gebruikt om outputs tijdens training te "beoordelen", worden de tokens die door die beoordelingsaanroepen worden verbruikt na afloop van de training afzonderlijk gefactureerd tegen onze standaard API-tarieven.

We rekenen alleen kosten voor trainingswerk dat je model daadwerkelijk bijwerkt (wat wij "captured forward progress" noemen).

Waarvoor we kosten in rekening brengen

We brengen kosten in rekening voor de tijd waarin je trainingsworker je model actief traint, specifiek:

Samples genereren vanuit je model tijdens het fine-tuningproces (bekend als ‘rollouts’)
Die uitvoer evalueren met een of meer beoordelaars die je voor de taak hebt gedefinieerd (meer informatie over beoordelaars)
Gewichtsupdates berekenen en toepassen op basis van de beoordelingen (backpropagation).
Alle validatie- of evaluatiestappen uitvoeren die je hebt geconfigureerd.

De meeste beoordelaars zijn ‘gratis’ om uit te voeren; dat betekent dat we geen extra kosten rekenen voor het gebruik ervan buiten de tijd die ze bijdragen aan de kerntrainingslus. De uitzondering hierop geldt voor modelbeoordelaars, waarbij we ook de tokens optellen die deze beoordelaars tijdens de bovenstaande activiteiten verbruiken. Deze tokens verschijnen als een afzonderlijke post op je factuur. Tokens die door modelbeoordelaars worden verbruikt, worden gefactureerd tegen normale inferentietarieven (OpenAI-prijzen).

Waarvoor we NIET factureren

We rekenen geen kosten voor tijd besteed aan:

Het valideren of inspecteren van je dataset voordat de training start.
Veiligheidscontroles van je dataset.
Wachten in een wachtrij op rekenresources.
Het downloaden van modelgewichten of datasets.
Het voorbereiden (renderen) van je dataset naar ons trainingsformaat.
Veiligheidsevaluaties na de training van je fine-tuned model.

Als trainingswerk verloren gaat door een fout aan onze kant (bijvoorbeeld als een worker crasht en moet terugvallen op een eerder checkpoint), worden er geen kosten in rekening gebracht voor de verloren rekentijd of grader-tokens. Meer details hierover in de volgende sectie.

Captured forward progress en facturatiegebeurtenissen

Training bestaat uit veel kleine updates van je model. We houden bij hoeveel van deze updates met succes worden voltooid. Kosten zijn gebaseerd op de rekentijd en grader-tokens die met deze succesvolle updates samenhangen.

We brengen kosten in rekening wanneer een van de volgende "facturatiegebeurtenissen" plaatsvindt:

Training wordt succesvol voltooid.
Je pauzeert de training.
Je annuleert de training.
Training mislukt.

Elke kostenpost dekt het incrementele werk dat sinds de vorige kostenpost is uitgevoerd. Bijvoorbeeld:

Als je een run pauzeert, slaan we een checkpoint op en brengen we de rekentijd en grader-tokens in rekening die sinds de vorige kostenpost zijn gebruikt.
Wanneer je hervat, gaat de training verder vanaf het checkpoint. De volgende kostenpost (bij voltooiing, een nieuwe pauze, annulering of mislukking) dekt alleen het extra werk dat na het hervatten is uitgevoerd.
Als je een run annuleert, brengen we het werk in rekening dat tot aan de annulering is uitgevoerd.
Als training mislukt en werk sinds de vorige kostenpost verloren gaat, wordt het verloren deel niet gefactureerd.

Deze aanpak van "captured forward progress" zorgt ervoor dat je alleen betaalt voor werk dat in je model behouden blijft of dat je bewust opgeeft.

Taakvoortgang bekijken

RFT-taken hebben een veld met de naam usage_metrics, waarin het totale gebruik van de taak tot en met de huidige stap wordt gedocumenteerd. Dit omvat de tijd die aan training is besteed en alle tokens die voor alle modelbeoordelaars in de taak zijn gebruikt. Dit veld kan worden bekeken via de API (GET /v1/fine_tuning/jobs/{job_id}) of via het fine-tuningdashboard.

Factoren die de trainingstijd beïnvloeden

Omdat facturatie tijdgebaseerd is, hebben je configuratiekeuzes direct invloed op de kosten. Belangrijke factoren zijn onder meer:

Moeilijkheidsgraad van het probleem: als je dataset uit moeilijke problemen bestaat, zal het model waarschijnlijk meer tijd besteden aan redenering over elk probleem, waardoor het meer tijd kost om elk sample te produceren.
Rekenintensiteit: De hyperparameter compute_multiplier bepaalt hoeveel berekening je per trainingsstap uitvoert. Hogere waarden moedigen het model aan om uitgebreider te redeneren over elk datapunt, waardoor elke stap langzamer wordt uitgevoerd.
Validatie-instellingen:
- Een grotere validatieset verhoogt de tijd die aan evaluatie wordt besteed.
- Het verhogen van eval_samples (het aantal modeloutputs dat per validatievoorbeeld wordt beoordeeld) verhoogt de validatietijd.
- Vaker valideren (lagere eval_interval) verhoogt het aandeel tijd dat aan validatie wordt besteed.
Prestaties van graders:
- Grotere of capabelere model graders hebben meer tijd nodig om een beoordeling terug te geven dan kleinere. Beoordelen met een redenerend model kan bijvoorbeeld 10x langer duren dan beoordelen met een niet-redenerend model.
- Complexe Python-beoordelingsfuncties hebben meer tijd nodig om uit te voeren dan eenvoudige.

Met deze instellingen kun je een afweging maken tussen kosten, snelheid en modelkwaliteit. Frequente validatie kan bijvoorbeeld problemen eerder opsporen, maar verhoogt de kosten. Beoordelen met een geavanceerder model kan de nauwkeurigheid van de beoordeling drastisch verbeteren, maar vertraagt elke beoordelingsstap en maakt jobs duurder.

Kosten beheren

Om je uitgaven te beheersen:

Begin met kortere runs om te begrijpen hoe je configuratie de tijd beïnvloedt.
Gebruik een redelijk aantal validatievoorbeelden en eval_samples. Valideer niet vaker dan nodig.
Kies het kleinste grader-model dat aan je kwaliteitseisen voldoet.
Houd aangepaste Python-graders efficiënt.
Pas compute_multiplier aan om convergentiesnelheid en kosten in balans te brengen.
Volg je run in het dashboard of via de API. Je kunt op elk moment pauzeren of annuleren.

Voorbeelden

Geslaagde trainingsrun

Trainingstijd	Gefactureerde tijd	Status	Beschrijving
00:00	00:00	–	Gebruiker maakt RFT-taak via API
00:10	00:00	VALIDATING_FILES	10 minuten besteed aan het valideren van de dataset
00:30	00:00	VALIDATING_FILES	20 minuten bezig met veiligheidscontroles van de dataset
01:00	00:00	QUEUED	30 minuten wachten op een beschikbare worker
01:30	00:00	RUNNING	30 minuten besteed aan het instellen van training (gewichten downloaden, preprocessing, enz.)
05:30	04:00	RUNNING	4 uur besteed aan training
06:00	04:00	RUNNING	30 minuten besteed aan veiligheidsevaluaties van het resulterende model
06:00	04:00	SUCCEEDED	Training voltooid

In dit geval is de totale verstreken tijd 6 uur, maar zijn slechts 4 uur factureerbaar. De kosten zouden 4 uur × $100/uur = $400 zijn.

Voorbeeld van mislukte taak

In dit voorbeeld traint de run 2 uur, schrijft een checkpoint, traint nog 1 uur, maar mislukt daarna. Alleen de 2 uur training tot aan het checkpoint zijn factureerbaar.

Trainingstijd	Gefactureerde tijd	Status	Beschrijving
00:00	00:00	–	Gebruiker maakt RFT-taak via API
00:10	00:00	VALIDATING_FILES	10 minuten besteed aan het valideren van de dataset
00:30	00:00	VALIDATING_FILES	20 minuten bezig met veiligheidscontroles van de dataset
01:00	00:00	QUEUED	30 minuten wachten op een beschikbare worker
01:30	00:00	RUNNING	30 minuten besteed aan het instellen van training (gewichten downloaden, preprocessing, enz.)
03:30	02:00	RUNNING	2 uur besteed aan training
03:30	02:00	RUNNING	Checkpoint gemaakt bij stap 5
04:30	02:00	RUNNING	Training mislukt door interne fout bij stap 8 (na nog 1 uur)
04:30	02:00	RUNNING	30 minuten besteed aan het evalueren en valideren van het checkpoint
04:30	02:00	SUCCEEDED	Taak voltooid (met laatste checkpoint)

Hoewel er in totaal 3 uur aan training is besteed, zijn slechts 2 uur in een bruikbaar checkpoint "vastgelegd" en worden die gefactureerd. Het uur trainingswerk dat door de fout verloren is gegaan, is niet jouw verantwoordelijkheid. De kosten zouden 2 uur × $100/uur = $200 zijn.

Veelgestelde vragen

Wanneer worden er kosten in rekening gebracht?

We brengen kosten in rekening wanneer je run is voltooid, gepauzeerd, geannuleerd of mislukt. Elke factuur dekt het werk dat sinds de vorige factuur is uitgevoerd.

Betaal ik als een run mislukt?

Als een run door onze fout mislukt en recent trainingswerk verloren gaat, brengen we voor het verloren deel geen kosten in rekening. Als je een run annuleert, brengen we kosten in rekening voor het werk tot aan de annulering.

Hoe worden tokens van beoordelingsmodellen gefactureerd?

We tellen de tokens die worden gebruikt door modelbeoordelaars die je configureert. Nadat de training is voltooid, factureren we die tokens tegen onze standaardtarieven per token.

Kan ik een run pauzeren en hervatten?

Ja. Wanneer je pauzeert, slaan we een checkpoint op en brengen we kosten in rekening voor het werk dat tot dan toe is gedaan. Wanneer je hervat, worden alleen kosten in rekening gebracht voor aanvullend werk dat na het hervatten wordt gedaan.

Als je andere vragen hebt over facturering voor Reinforcement Fine‑Tuning, neem dan contact op met ons supportteam.

Facturatiehandleiding voor de Reinforcement Fine-Tuning API