Cum funcționează facturarea pentru RFT

Reglarea fină prin consolidare (RFT) vă permite să optimizați performanța modelelor de raţionament de la OpenAI folosind învățare prin consolidare. Spre deosebire de ofertele noastre de reglare fină supervizată sau bazată pe preferințe, care sunt facturate după numărul de token din setul de date de antrenare, RFT este facturat pe baza timpului pe care rularea de antrenare îl petrece efectuând activitatea principală de învățare automată.

Acest ghid explică ce este considerat timp de antrenare facturabil, cum gestionăm pauzele și anulările și cum pot opțiunile dvs. de configurare să afecteze costul.

Prețuri

Calcul: $100 pe oră de timp de ceas petrecut în bucla de antrenare de bază pentru o4-mini-2025-04-16. Taxele sunt prorate la secundă și rotunjite la două zecimale pe factură (de ex., 2,55 ore).
Utilizarea modelului evaluator: Dacă utilizați un model OpenAI pentru a „evalua” ieșirile în timpul antrenării, tokenii consumați de acele apeluri de evaluare sunt facturați separat la tarifele noastre API standard după finalizarea antrenării.

Taxăm doar activitatea de antrenare care vă actualizează efectiv modelul (ceea ce numim „progres înainte capturat”).

Pentru ce facturăm

Facturăm timpul în care workerul tău de antrenare petrece antrenând activ modelul tău, mai exact:

Generarea de eșantioane din modelul tău în timpul procesului de ajustare fină (cunoscute ca „rollouts”)
Evaluarea acelor ieșiri cu unul sau mai mulți evaluatori pe care i-ai definit în job (află mai multe despre evaluatori)
Calcularea și aplicarea actualizărilor de ponderi pe baza notelor (propagare înapoi).
Rularea oricăror pași de validare (evaluare) pe care i-ai configurat.

Majoritatea evaluatorilor sunt „gratuiți” de rulat, ceea ce înseamnă că nu percepem taxe suplimentare pentru utilizarea lor în afara timpului cu care contribuie la bucla principală de antrenare. Excepția este pentru evaluatorii de model, pentru care contorizăm și tokenii pe care acei evaluatori îi consumă în timpul activităților de mai sus. Acești tokeni apar ca un element de linie separat pe factura ta. Tokenii consumați de evaluatorii de model sunt facturați la tarifele normale de inferență (prețurile OpenAI).

Ce NU facturăm

Nu taxăm timpul petrecut pentru:

Validarea sau inspectarea setului dvs. de date înainte de începerea antrenării.
Verificările de siguranță ale setului dvs. de date.
Așteptarea la coadă pentru resurse de calcul.
Descărcarea ponderilor modelului sau a seturilor de date.
Pregătirea (randarea) setului dvs. de date în formatul nostru de antrenare.
Evaluările de siguranță post‑antrenare ale modelului dvs. fine-tuned.

Dacă activitatea de antrenare se pierde din cauza unei erori de partea noastră (de exemplu, dacă un worker se blochează și trebuie să revină la un checkpoint anterior), nu vi se facturează timpul de calcul sau tokenii evaluatorului pierduți. Mai multe detalii despre acest lucru în secțiunea următoare.

Progres înainte capturat și evenimente de facturare

Antrenarea constă în multe actualizări mici ale modelului dvs. Urmărim câte dintre aceste actualizări se finalizează cu succes. Taxele se bazează pe timpul de calcul și pe tokenii evaluatorului asociați acestor actualizări reușite.

Emitem o taxă când are loc unul dintre următoarele „evenimente de facturare”:

Antrenarea se încheie cu succes.
Întrerupeți antrenarea.
Anulați antrenarea.
Antrenarea eșuează.

Fiecare taxă acoperă activitatea incrementală efectuată de la ultima taxă. De exemplu:

Dacă întrerupeți o rulare, salvăm un checkpoint și vă taxăm pentru timpul de calcul și tokenii evaluatorului utilizați de la ultima taxă.
Când reluați, antrenarea continuă de la checkpoint. Următoarea taxă (la finalizare, o altă pauză, anulare sau eșec) va acoperi doar activitatea suplimentară efectuată după reluare.
Dacă anulați o rulare, vă taxăm pentru activitatea efectuată până la anulare.
Dacă antrenarea eșuează și activitatea de la ultima taxă se pierde, nu vi se facturează partea pierdută.

Această abordare a „progresului înainte capturat” vă asigură că plătiți doar pentru activitatea păstrată în modelul dvs. sau pe care o abandonați în mod intenționat.

Vizualizarea progresului jobului

Joburile RFT au un câmp numit usage_metrics, care documentează utilizarea totală a jobului până la pasul curent. Aceasta include timpul petrecut pentru antrenare și toți tokenii utilizați de toți evaluatorii de model din job. Acest câmp poate fi inspectat prin API (GET /v1/fine_tuning/jobs/{job_id}) sau prin tabloul de bord pentru ajustare fină.

Factori care influențează timpul de antrenare

Deoarece facturarea se bazează pe timp, opțiunile dvs. de configurare afectează direct costul. Factorii-cheie includ:

Dificultatea problemei: dacă setul dvs. de date constă în probleme dificile, modelul va petrece probabil mai mult timp raționând asupra fiecărei probleme, ceea ce mărește timpul necesar pentru a produce fiecare eșantion.
Intensitatea de calcul: hiperparametrul compute_multiplier controlează cât de mult calcul efectuați per pas de antrenare. Valorile mai mari încurajează modelul să raționeze mai detaliat asupra fiecărui punct de date, ceea ce face ca fiecare pas să ruleze mai lent.
Setările de validare:
- Un set de validare mai mare mărește timpul petrecut pentru evaluare.
- Creșterea valorii eval_samples (numărul de ieșiri ale modelului evaluate pentru fiecare exemplu de validare) mărește timpul de validare.
- Rularea validării mai frecvent (valoare mai mică pentru eval_interval) mărește proporția de timp petrecută pentru validare.
Performanța evaluatorului:
- Modelele evaluatoare mai mari sau mai capabile au nevoie de mai mult timp pentru a returna o evaluare decât cele mai mici. De exemplu, evaluarea cu un model de raţionament poate dura de 10 ori mai mult decât evaluarea cu un model fără raţionament.
- Funcțiile complexe de evaluare în Python durează mai mult decât cele simple.

Aceste setări vă permit să echilibrați costul, viteza și calitatea modelului. De exemplu, validarea frecventă poate identifica problemele mai devreme, dar crește costul. Evaluarea cu un model mai avansat poate îmbunătăți drastic acuratețea evaluării, dar va încetini fiecare pas de evaluare și va face joburile mai costisitoare.

Gestionarea costurilor

Pentru a vă controla cheltuielile:

Începeți cu rulări mai scurte pentru a înțelege cum vă afectează configurarea timpul.
Folosiți un număr rezonabil de exemple de validare și eval_samples. Evitați să validați mai des decât este necesar.
Alegeți cel mai mic model evaluator care vă îndeplinește cerințele de calitate.
Păstrați eficiența evaluatorilor Python personalizați.
Ajustați compute_multiplier pentru a echilibra viteza de convergență și costul.
Monitorizați rularea în tabloul de bord sau prin API. Puteți întrerupe sau anula în orice moment.

Exemple

Rulare de antrenare reușită

Timp de antrenare	Timp facturat	Stare	Descriere
00:00	00:00	–	Utilizatorul creează un job RFT prin API
00:10	00:00	VALIDATING_FILES	10 minute petrecute validând setul de date
00:30	00:00	VALIDATING_FILES	20 de minute executând verificări de siguranță ale setului de date
01:00	00:00	QUEUED	30 de minute așteptând un worker disponibil
01:30	00:00	RUNNING	30 de minute configurând antrenarea (descărcarea ponderilor, preprocesare etc.)
05:30	04:00	RUNNING	4 ore petrecute antrenând
06:00	04:00	RUNNING	30 de minute executând evaluări de siguranță ale modelului rezultat
06:00	04:00	SUCCEEDED	Antrenarea se încheie

În acest caz, timpul total de ceas este de 6 ore, dar numai 4 ore sunt facturabile. Costul ar fi 4 ore × $100/oră = $400.

Exemplu de job eșuat

În acest exemplu, rularea antrenează timp de 2 ore, scrie un punct de control, antrenează încă 1 oră, dar apoi eșuează. Sunt facturabile doar cele 2 ore de antrenare până la punctul de control.

Timp de antrenare	Timp facturat	Stare	Descriere
00:00	00:00	–	Utilizatorul creează un job RFT prin API
00:10	00:00	VALIDATING_FILES	10 minute petrecute validând setul de date
00:30	00:00	VALIDATING_FILES	20 de minute executând verificări de siguranță ale setului de date
01:00	00:00	QUEUED	30 de minute așteptând un worker disponibil
01:30	00:00	RUNNING	30 de minute configurând antrenarea (descărcarea ponderilor, preprocesare etc.)
03:30	02:00	RUNNING	2 ore petrecute antrenând
03:30	02:00	RUNNING	Punct de control creat la pasul 5
04:30	02:00	RUNNING	Antrenarea eșuează din cauza unei erori interne la pasul 8 (după încă 1 oră)
04:30	02:00	RUNNING	30 de minute evaluând și validând punctul de control
04:30	02:00	SUCCEEDED	Jobul se încheie (cu cel mai recent punct de control)

Chiar dacă s-au petrecut 3 ore antrenând în total, doar 2 ore sunt „captate” într-un punct de control utilizabil și sunt facturate. Ora de lucru de antrenare pierdută din cauza eșecului nu este responsabilitatea ta. Costul ar fi 2 ore × $100/oră = $200.

Întrebări frecvente

Când sunt taxat?

Facturăm când rularea ta se finalizează, este pusă în pauză, este anulată sau eșuează. Fiecare factură acoperă lucrările efectuate de la factura anterioară.

Plătesc dacă o rulare eșuează?

Dacă o rulare eșuează din cauza erorii noastre și se pierde muncă de antrenare recentă, nu ești taxat pentru porțiunea pierdută. Dacă anulezi o rulare, ești taxat pentru lucrările efectuate până la anulare.

Cum sunt facturați tokenii modelului evaluator?

Numărăm tokenii utilizați de orice evaluatori de model pe care îi configurezi. După ce antrenarea se încheie, facturăm acești tokeni la tarifele noastre standard per token.

Pot pune în pauză și relua o rulare?

Da. Când pui în pauză, salvăm un punct de control și taxăm lucrările efectuate până atunci. Când reiei, vei fi taxat doar pentru lucrările suplimentare efectuate după reluare.

Dacă ai alte întrebări despre facturarea Reinforcement Fine‑Tuning, contactează echipa noastră de asistență.

Ghid de facturare pentru API-ul Reinforcement Fine-Tuning