OpenAI
Această pagină a fost tradusă automat. Vezi articolul original în limba engleză.

Ghid de facturare pentru API-ul Reinforcement Fine-Tuning

Cum funcționează facturarea pentru API-ul RFT

Actualizat: 3 days ago

Cum funcționează facturarea pentru RFT

Reinforcement Fine‑Tuning (RFT) vă permite să optimizați performanța modelelor de raţionament OpenAI folosind învățare prin consolidare. Spre deosebire de ofertele noastre de fine-tuning supravegheat sau bazat pe preferințe, care sunt facturate în funcție de numărul de tokeni din setul de date de antrenare, RFT este facturat în funcție de timpul în care rularea de antrenare petrece efectuând activitatea de bază de învățare automată.

Acest ghid explică ce este considerat timp de antrenare facturabil, cum gestionăm pauzele și anulările și cum pot opțiunile dvs. de configurare să afecteze costul.

Prețuri

  • Calcul: $100 pe oră de timp de ceas petrecut în bucla de antrenare de bază pentru o4-mini-2025-04-16. Taxele sunt prorate la secundă și rotunjite la două zecimale pe factură (de ex., 2,55 ore).

  • Utilizarea modelului evaluator: Dacă utilizați un model OpenAI pentru a „evalua” ieșirile în timpul antrenării, tokenii consumați de acele apeluri de evaluare sunt facturați separat la tarifele noastre API standard după finalizarea antrenării.

Taxăm doar activitatea de antrenare care vă actualizează efectiv modelul (ceea ce numim „progres înainte capturat”).

Ce facturăm

Facturăm timpul în care workerul dvs. de antrenare petrece antrenând activ modelul, mai exact:

  • Generarea de eșantioane din modelul dvs. în timpul procesului de fine-tuning (cunoscute drept „rollout-uri”)

  • Evaluarea acelor ieșiri cu unul sau mai mulți evaluatori pe care i-ați definit pentru job (aflați mai multe despre evaluatori)

  • Calcularea și aplicarea actualizărilor ponderilor pe baza evaluărilor (backpropagation).

  • Rularea oricăror pași de validare (evaluare) pe care i-ați configurat.

Majoritatea evaluatorilor sunt „gratuite” la rulare, ceea ce înseamnă că nu taxăm suplimentar utilizarea lor în afara timpului pe care îl adaugă la bucla de antrenare de bază. Excepția este cea a modelelor evaluatoare, pentru care contabilizăm și tokenii pe care acești evaluatori îi consumă în timpul activităților de mai sus. Acești tokeni apar ca articol separat pe factură. Tokenii consumați de modelele evaluatoare sunt facturați la tarifele normale de inferență (prețurile OpenAI).

Ce NU facturăm

Nu taxăm timpul petrecut pentru:

  • Validarea sau inspectarea setului dvs. de date înainte de începerea antrenării.

  • Verificările de siguranță ale setului dvs. de date.

  • Așteptarea la coadă pentru resurse de calcul.

  • Descărcarea ponderilor modelului sau a seturilor de date.

  • Pregătirea (randarea) setului dvs. de date în formatul nostru de antrenare.

  • Evaluările de siguranță post‑antrenare ale modelului dvs. fine-tuned.

Dacă activitatea de antrenare se pierde din cauza unei erori de partea noastră (de exemplu, dacă un worker se blochează și trebuie să revină la un checkpoint anterior), nu vi se facturează timpul de calcul sau tokenii evaluatorului pierduți. Mai multe detalii despre acest lucru în secțiunea următoare.

Progres înainte capturat și evenimente de facturare

Antrenarea constă în multe actualizări mici ale modelului dvs. Urmărim câte dintre aceste actualizări se finalizează cu succes. Taxele se bazează pe timpul de calcul și pe tokenii evaluatorului asociați acestor actualizări reușite.

Emitem o taxă când are loc unul dintre următoarele „evenimente de facturare”:

  • Antrenarea se încheie cu succes.

  • Întrerupeți antrenarea.

  • Anulați antrenarea.

  • Antrenarea eșuează.

Fiecare taxă acoperă activitatea incrementală efectuată de la ultima taxă. De exemplu:

  • Dacă întrerupeți o rulare, salvăm un checkpoint și vă taxăm pentru timpul de calcul și tokenii evaluatorului utilizați de la ultima taxă.

  • Când reluați, antrenarea continuă de la checkpoint. Următoarea taxă (la finalizare, o altă pauză, anulare sau eșec) va acoperi doar activitatea suplimentară efectuată după reluare.

  • Dacă anulați o rulare, vă taxăm pentru activitatea efectuată până la anulare.

  • Dacă antrenarea eșuează și activitatea de la ultima taxă se pierde, nu vi se facturează partea pierdută.

Această abordare a „progresului înainte capturat” vă asigură că plătiți doar pentru activitatea păstrată în modelul dvs. sau pe care o abandonați în mod intenționat.

Vizualizarea progresului jobului

Joburile RFT au un câmp numit usage_metrics care documentează utilizarea totală a jobului până la pasul curent. Acesta include timpul petrecut pentru antrenare și toți tokenii utilizați de toate modelele evaluatoare din job. Acest câmp poate fi inspectat prin API (GET /v1/fine_tuning/jobs/{job_id}) sau prin tabloul de bord pentru fine-tuning.

Factori care influențează timpul de antrenare

Deoarece facturarea se bazează pe timp, opțiunile dvs. de configurare afectează direct costul. Factorii-cheie includ:

  • Dificultatea problemei: dacă setul dvs. de date constă în probleme dificile, modelul va petrece probabil mai mult timp raționând asupra fiecărei probleme, ceea ce mărește timpul necesar pentru a produce fiecare eșantion.

  • Intensitatea de calcul: hiperparametrul compute_multiplier controlează cât de mult calcul efectuați per pas de antrenare. Valorile mai mari încurajează modelul să raționeze mai detaliat asupra fiecărui punct de date, ceea ce face ca fiecare pas să ruleze mai lent.

  • Setările de validare:

    • Un set de validare mai mare mărește timpul petrecut pentru evaluare.

    • Creșterea valorii eval_samples (numărul de ieșiri ale modelului evaluate pentru fiecare exemplu de validare) mărește timpul de validare.

    • Rularea validării mai frecvent (valoare mai mică pentru eval_interval) mărește proporția de timp petrecută pentru validare.

  • Performanța evaluatorului:

    • Modelele evaluatoare mai mari sau mai capabile au nevoie de mai mult timp pentru a returna o evaluare decât cele mai mici. De exemplu, evaluarea cu un model de raţionament poate dura de 10 ori mai mult decât evaluarea cu un model fără raţionament.

    • Funcțiile complexe de evaluare în Python durează mai mult decât cele simple.

Aceste setări vă permit să echilibrați costul, viteza și calitatea modelului. De exemplu, validarea frecventă poate identifica problemele mai devreme, dar crește costul. Evaluarea cu un model mai avansat poate îmbunătăți drastic acuratețea evaluării, dar va încetini fiecare pas de evaluare și va face joburile mai costisitoare.

Gestionarea costurilor

Pentru a vă controla cheltuielile:

  • Începeți cu rulări mai scurte pentru a înțelege cum vă afectează configurarea timpul.

  • Folosiți un număr rezonabil de exemple de validare și eval_samples. Evitați să validați mai des decât este necesar.

  • Alegeți cel mai mic model evaluator care vă îndeplinește cerințele de calitate.

  • Păstrați eficiența evaluatorilor Python personalizați.

  • Ajustați compute_multiplier pentru a echilibra viteza de convergență și costul.

  • Monitorizați rularea în tabloul de bord sau prin API. Puteți întrerupe sau anula în orice moment.

Exemple

Rulare de antrenare reușită

Timp de antrenareTimp facturatStareDescriere
00 : 0000 : 00Utilizatorul creează jobul RFT prin API
00 : 1000 : 00VALIDATING_FILES10 minute petrecute pentru validarea setului de date
00 : 3000 : 00VALIDATING_FILES20 de minute pentru rularea verificărilor de siguranță ale setului de date
01 : 0000 : 00QUEUED30 de minute de așteptare pentru un worker disponibil
01 : 3000 : 00RUNNING30 de minute pentru configurarea antrenării (descărcare ponderi, preprocesare etc.)
05 : 3004 : 00RUNNING4 ore petrecute pentru antrenare
06 : 0004 : 00RUNNING30 de minute pentru rularea evaluărilor de siguranță ale modelului rezultat
06 : 0004 : 00SUCCEEDEDAntrenarea se încheie

În acest caz, timpul total de ceas este de 6 ore, dar doar 4 ore sunt facturabile. Costul ar fi 4 ore × $100/oră = $400.

Exemplu de job eșuat

În acest exemplu, rularea se antrenează timp de 2 ore, scrie un checkpoint, se antrenează încă 1 oră, dar apoi eșuează. Sunt facturabile doar cele 2 ore de antrenare până la checkpoint.

Timp de antrenareTimp facturatStareDescriere
00 : 0000 : 00Utilizatorul creează jobul RFT prin API
00 : 1000 : 00VALIDATING_FILES10 minute petrecute pentru validarea setului de date
00 : 3000 : 00VALIDATING_FILES20 de minute pentru rularea verificărilor de siguranță ale setului de date
01 : 0000 : 00QUEUED30 de minute de așteptare pentru un worker disponibil
01 : 3000 : 00RUNNING30 de minute pentru configurarea antrenării (descărcare ponderi, preprocesare etc.)
03 : 3002 : 00RUNNING2 ore petrecute pentru antrenare
03 : 3002 : 00RUNNINGCheckpoint creat la pasul 5
04 : 3002 : 00RUNNINGAntrenarea eșuează din cauza unei erori interne la pasul 8 (după încă 1 oră)
04 : 3002 : 00RUNNING30 de minute pentru evaluarea și validarea checkpointului
04 : 3002 : 00SUCCEEDEDJobul se încheie (cu cel mai recent checkpoint)

Deși în total s-au petrecut 3 ore pentru antrenare, doar 2 ore sunt „capturate” într-un checkpoint utilizabil și sunt facturate. Ora de antrenare pierdută din cauza eșecului nu este responsabilitatea dvs. Costul ar fi 2 ore × $100/oră = $200.

Întrebări frecvente

Când sunt taxat(ă)?

Facturăm când rularea se finalizează, este întreruptă, este anulată sau eșuează. Fiecare factură acoperă activitatea efectuată de la factura anterioară.

Plătesc dacă o rulare eșuează?

Dacă o rulare eșuează din cauza unei erori de-a noastre și o parte din activitatea recentă de antrenare se pierde, nu vi se facturează partea pierdută. Dacă anulați o rulare, vi se facturează activitatea până la anulare.

Cum sunt facturați tokenii modelului evaluator?

Numărăm tokenii utilizați de orice modele evaluatoare pe care le configurați. După finalizarea antrenării, facturăm acești tokeni la tarifele noastre standard per token.

Pot întrerupe și relua o rulare?

Da. Când întrerupeți, salvăm un checkpoint și taxăm activitatea efectuată până în acel moment. Când reluați, vi se va factura doar activitatea suplimentară efectuată după reluare.

Dacă aveți alte întrebări despre facturarea Reinforcement Fine‑Tuning, contactați echipa noastră de asistență.

A fost util acest articol?