OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

Facturatiehandleiding voor de Reinforcement Fine-Tuning API

Hoe facturatie werkt voor de RFT API

Bijgewerkt: 15 days ago

Hoe facturatie werkt voor RFT

Met Reinforcement Fine‑Tuning (RFT) kun je de prestaties van OpenAI’s redenerende modellen optimaliseren met reinforcement learning. In tegenstelling tot onze supervised of preference fine-tuning-opties, die worden gefactureerd op basis van het aantal tokens in de trainingsdataset, wordt RFT gefactureerd op basis van de tijd die je trainingsrun besteedt aan het kernwerk van machine learning.

In deze handleiding wordt uitgelegd wat telt als factureerbare trainingstijd, hoe we omgaan met pauzes en annuleringen, en hoe je configuratiekeuzes de kosten kunnen beïnvloeden.

Prijzen

  • Compute: $100 per uur wandkloktijd besteed in de kerntrainingslus voor o4-mini-2025-04-16. Kosten worden naar rato per seconde berekend en op de factuur afgerond op twee decimalen (bijv. 2,55 uur).

  • Gebruik van model graders: Als je een OpenAI-model gebruikt om outputs tijdens training te "beoordelen", worden de tokens die door die beoordelingsaanroepen worden verbruikt na afloop van de training afzonderlijk gefactureerd tegen onze standaard API-tarieven.

We rekenen alleen kosten voor trainingswerk dat je model daadwerkelijk bijwerkt (wat wij "captured forward progress" noemen).

Waarvoor we factureren

We factureren voor de tijd die je trainingsworker actief besteedt aan het trainen van je model, specifiek:

  • Het genereren van samples van je model tijdens het fine-tuning-proces (bekend als ‘rollouts’)

  • Het evalueren van die outputs met een of meer graders die je voor de job hebt gedefinieerd (meer informatie over graders)

  • Het berekenen en toepassen van weight updates op basis van de beoordelingen (backpropagation).

  • Het uitvoeren van alle validatie- (evaluatie-)stappen die je hebt geconfigureerd.

De meeste graders zijn ‘gratis’ om uit te voeren, wat betekent dat we buiten de hoeveelheid tijd die ze bijdragen aan de kerntrainingslus geen extra kosten rekenen voor het gebruik ervan. De uitzondering hierop zijn model graders, waarbij we ook de tokens meetellen die deze graders verbruiken tijdens de bovenstaande activiteiten. Deze tokens verschijnen als een afzonderlijke regel op je factuur. Tokens die door model graders worden verbruikt, worden gefactureerd tegen de normale inferentietarieven (OpenAI-prijzen).

Waarvoor we NIET factureren

We rekenen geen kosten voor tijd besteed aan:

  • Het valideren of inspecteren van je dataset voordat de training start.

  • Veiligheidscontroles van je dataset.

  • Wachten in een wachtrij op rekenresources.

  • Het downloaden van modelgewichten of datasets.

  • Het voorbereiden (renderen) van je dataset naar ons trainingsformaat.

  • Veiligheidsevaluaties na de training van je fine-tuned model.

Als trainingswerk verloren gaat door een fout aan onze kant (bijvoorbeeld als een worker crasht en moet terugvallen op een eerder checkpoint), worden er geen kosten in rekening gebracht voor de verloren rekentijd of grader-tokens. Meer details hierover in de volgende sectie.

Captured forward progress en facturatiegebeurtenissen

Training bestaat uit veel kleine updates van je model. We houden bij hoeveel van deze updates met succes worden voltooid. Kosten zijn gebaseerd op de rekentijd en grader-tokens die met deze succesvolle updates samenhangen.

We brengen kosten in rekening wanneer een van de volgende "facturatiegebeurtenissen" plaatsvindt:

  • Training wordt succesvol voltooid.

  • Je pauzeert de training.

  • Je annuleert de training.

  • Training mislukt.

Elke kostenpost dekt het incrementele werk dat sinds de vorige kostenpost is uitgevoerd. Bijvoorbeeld:

  • Als je een run pauzeert, slaan we een checkpoint op en brengen we de rekentijd en grader-tokens in rekening die sinds de vorige kostenpost zijn gebruikt.

  • Wanneer je hervat, gaat de training verder vanaf het checkpoint. De volgende kostenpost (bij voltooiing, een nieuwe pauze, annulering of mislukking) dekt alleen het extra werk dat na het hervatten is uitgevoerd.

  • Als je een run annuleert, brengen we het werk in rekening dat tot aan de annulering is uitgevoerd.

  • Als training mislukt en werk sinds de vorige kostenpost verloren gaat, wordt het verloren deel niet gefactureerd.

Deze aanpak van "captured forward progress" zorgt ervoor dat je alleen betaalt voor werk dat in je model behouden blijft of dat je bewust opgeeft.

Voortgang van jobs bekijken

RFT-jobs hebben een veld met de naam usage_metrics dat het totale gebruik van de job tot en met de huidige stap documenteert. Dit omvat de tijd die aan training is besteed en alle tokens die door alle model graders in de job zijn gebruikt. Dit veld kan via de API worden bekeken (GET /v1/fine_tuning/jobs/{job_id}) of via het fine-tuning-dashboard.

Factoren die de trainingstijd beïnvloeden

Omdat facturatie tijdgebaseerd is, hebben je configuratiekeuzes direct invloed op de kosten. Belangrijke factoren zijn onder meer:

  • Moeilijkheidsgraad van het probleem: als je dataset uit moeilijke problemen bestaat, zal het model waarschijnlijk meer tijd besteden aan redenering over elk probleem, waardoor het meer tijd kost om elk sample te produceren.

  • Rekenintensiteit: De hyperparameter compute_multiplier bepaalt hoeveel berekening je per trainingsstap uitvoert. Hogere waarden moedigen het model aan om uitgebreider te redeneren over elk datapunt, waardoor elke stap langzamer wordt uitgevoerd.

  • Validatie-instellingen:

    • Een grotere validatieset verhoogt de tijd die aan evaluatie wordt besteed.

    • Het verhogen van eval_samples (het aantal modeloutputs dat per validatievoorbeeld wordt beoordeeld) verhoogt de validatietijd.

    • Vaker valideren (lagere eval_interval) verhoogt het aandeel tijd dat aan validatie wordt besteed.

  • Prestaties van graders:

    • Grotere of capabelere model graders hebben meer tijd nodig om een beoordeling terug te geven dan kleinere. Beoordelen met een redenerend model kan bijvoorbeeld 10x langer duren dan beoordelen met een niet-redenerend model.

    • Complexe Python-beoordelingsfuncties hebben meer tijd nodig om uit te voeren dan eenvoudige.

Met deze instellingen kun je een afweging maken tussen kosten, snelheid en modelkwaliteit. Frequente validatie kan bijvoorbeeld problemen eerder opsporen, maar verhoogt de kosten. Beoordelen met een geavanceerder model kan de nauwkeurigheid van de beoordeling drastisch verbeteren, maar vertraagt elke beoordelingsstap en maakt jobs duurder.

Kosten beheren

Om je uitgaven te beheersen:

  • Begin met kortere runs om te begrijpen hoe je configuratie de tijd beïnvloedt.

  • Gebruik een redelijk aantal validatievoorbeelden en eval_samples. Valideer niet vaker dan nodig.

  • Kies het kleinste grader-model dat aan je kwaliteitseisen voldoet.

  • Houd aangepaste Python-graders efficiënt.

  • Pas compute_multiplier aan om convergentiesnelheid en kosten in balans te brengen.

  • Volg je run in het dashboard of via de API. Je kunt op elk moment pauzeren of annuleren.

Voorbeelden

Succesvolle trainingsrun

TrainingstijdGefactureerde tijdStatusBeschrijving
00 : 0000 : 00Gebruiker maakt RFT-job via API aan
00 : 1000 : 00VALIDATING_FILES10 minuten besteed aan het valideren van de dataset
00 : 3000 : 00VALIDATING_FILES20 minuten bezig met veiligheidscontroles van de dataset
01 : 0000 : 00QUEUED30 minuten wachten op een beschikbare worker
01 : 3000 : 00RUNNING30 minuten bezig met het opzetten van training (gewichten downloaden, voorverwerking, enz.)
05 : 3004 : 00RUNNING4 uur besteed aan training
06 : 0004 : 00RUNNING30 minuten bezig met veiligheidsevaluaties van het resulterende model
06 : 0004 : 00SUCCEEDEDTraining wordt voltooid

In dit geval is de totale wandkloktijd 6 uur, maar slechts 4 uur is factureerbaar. De kosten zouden 4 uur × $100/uur = $400 zijn.

Voorbeeld van mislukte job

In dit voorbeeld traint de run 2 uur, schrijft een checkpoint, traint nog 1 uur, maar mislukt dan. Alleen de 2 uur training tot aan het checkpoint zijn factureerbaar.

TrainingstijdGefactureerde tijdStatusBeschrijving
00 : 0000 : 00Gebruiker maakt RFT-job via API aan
00 : 1000 : 00VALIDATING_FILES10 minuten besteed aan het valideren van de dataset
00 : 3000 : 00VALIDATING_FILES20 minuten bezig met veiligheidscontroles van de dataset
01 : 0000 : 00QUEUED30 minuten wachten op een beschikbare worker
01 : 3000 : 00RUNNING30 minuten bezig met het opzetten van training (gewichten downloaden, voorverwerking, enz.)
03 : 3002 : 00RUNNING2 uur besteed aan training
03 : 3002 : 00RUNNINGCheckpoint aangemaakt bij stap 5
04 : 3002 : 00RUNNINGTraining mislukt door een interne fout bij stap 8 (na nog 1 uur)
04 : 3002 : 00RUNNING30 minuten bezig met het evalueren en valideren van het checkpoint
04 : 3002 : 00SUCCEEDEDJob wordt voltooid (met meest recente checkpoint)

Hoewel er in totaal 3 uur aan training is besteed, zijn slechts 2 uur ‘vastgelegd’ in een bruikbaar checkpoint en worden die gefactureerd. Het uur trainingswerk dat door de fout verloren is gegaan, valt niet onder jouw verantwoordelijkheid. De kosten zouden 2 uur × $100/uur = $200 zijn.

Veelgestelde vragen

Wanneer worden er kosten in rekening gebracht?

We factureren wanneer je run is voltooid, wordt gepauzeerd, wordt geannuleerd of mislukt. Elke factuur dekt het werk dat sinds de vorige factuur is uitgevoerd.

Betaal ik als een run mislukt?

Als een run mislukt door een fout van onze kant en recent trainingswerk verloren gaat, worden er geen kosten in rekening gebracht voor het verloren deel. Als je een run annuleert, worden kosten in rekening gebracht voor het werk tot aan de annulering.

Hoe worden tokens van grader-modellen gefactureerd?

We tellen de tokens die worden gebruikt door alle model graders die je configureert. Na afloop van de training factureren we die tokens tegen onze standaard tarieven per token.

Kan ik een run pauzeren en hervatten?

Ja. Wanneer je pauzeert, slaan we een checkpoint op en brengen we de kosten voor het tot dan toe uitgevoerde werk in rekening. Wanneer je hervat, worden alleen de extra kosten in rekening gebracht voor werk dat na het hervatten is uitgevoerd.

Als je andere vragen hebt over facturatie voor Reinforcement Fine‑Tuning, neem dan contact op met ons supportteam.

Was dit artikel nuttig?