OpenAI
Táto stránka bola strojovo preložená. Prečítaj si pôvodný článok v angličtine.

Príručka k účtovaniu pre rozhranie API Reinforcement Fine-Tuning

Ako funguje účtovanie pre API RFT

Aktualizované: yesterday

Ako funguje účtovanie za RFT

Reinforcement Fine‑Tuning (RFT) vám umožňuje optimalizovať výkon uvažovacích modelov OpenAI pomocou učenia posilňovaním. Na rozdiel od našich ponúk dolaďovania s učiteľom alebo podľa preferencií, ktoré sa účtujú podľa počtu tokenov v trénovacej množine údajov, sa RFT účtuje podľa času, počas ktorého tréningový beh vykonáva hlavnú prácu strojového učenia.

Táto príručka vysvetľuje, čo sa počíta ako účtovateľný čas tréningu, ako riešime pozastavenia a zrušenia a ako môžu vaše voľby konfigurácie ovplyvniť cenu.

Cenník

  • Výpočty: 100 $ za hodinu reálneho času stráveného v hlavnej tréningovej slučke pre o4-mini-2025-04-16. Poplatky sa pomerne prepočítavajú na sekundy a na faktúre sa zaokrúhľujú na dve desatinné miesta (napr. 2,55 hodiny).

  • Využitie modelových hodnotiteľov: Ak počas tréningu použijete model OpenAI na „hodnotenie“ výstupov, tokeny spotrebované týmito hodnotiacimi volaniami sa po dokončení tréningu účtujú samostatne podľa našich štandardných sadzieb API.

Účtujeme len za tréningovú prácu, ktorá skutočne aktualizuje váš model (to, čo nazývame „zachytený postup vpred“).

Čo fakturujeme

Fakturujeme čas, ktorý váš tréningový pracovník strávi aktívnym tréningom vášho modelu, konkrétne:

  • Generovanie vzoriek z vášho modelu počas procesu jemného dolaďovania (známe ako „rollouts“)

  • Vyhodnocovanie týchto výstupov jedným alebo viacerými hodnotiteľmi, ktorých ste definovali v úlohe (ďalšie informácie o hodnotiteľoch)

  • Výpočet a použitie aktualizácií váh na základe hodnotení (spätné šírenie).

  • Spúšťanie všetkých krokov overenia (vyhodnotenia), ktoré ste nakonfigurovali.

Spustenie väčšiny hodnotiteľov je „bezplatné“, čo znamená, že za ich použitie neúčtujeme nič navyše okrem času, ktorým prispievajú k základnej tréningovej slučke. Výnimkou sú modeloví hodnotitelia, pri ktorých započítavame aj tokeny, ktoré títo hodnotitelia spotrebujú počas vyššie uvedených aktivít. Tieto tokeny sa na vašej faktúre zobrazia ako samostatná položka. Tokeny spotrebované modelovými hodnotiteľmi sa fakturujú podľa bežných sadzieb za inferenciu (cenník OpenAI).

Za čo NEúčtujeme

Neúčtujeme čas strávený:

  • Validáciou alebo kontrolou vašej množiny údajov pred začiatkom tréningu.

  • Bezpečnostnými kontrolami vašej množiny údajov.

  • Čakaním v rade na výpočtové prostriedky.

  • Sťahovaním váh modelu alebo množín údajov.

  • Prípravou (renderovaním) vašej množiny údajov do nášho tréningového formátu.

  • Bezpečnostnými vyhodnoteniami vášho doladeného modelu po tréningu.

Ak sa tréningová práca stratí v dôsledku chyby na našej strane (napríklad ak worker spadne a musí sa vrátiť k predchádzajúcemu checkpointu), za stratený čas výpočtov ani tokeny hodnotiteľov sa vám nič neúčtuje. Viac podrobností nájdete v ďalšej časti.

Zachytený postup vpred a udalosti účtovania

Tréning pozostáva z mnohých malých aktualizácií vášho modelu. Sledujeme, koľko z týchto aktualizácií sa úspešne dokončí. Poplatky sú založené na čase výpočtov a tokenoch hodnotiteľov spojených s týmito úspešnými aktualizáciami.

Poplatok zaúčtujeme, keď nastane jedna z nasledujúcich „udalostí účtovania“:

  • Tréning sa úspešne dokončí.

  • Pozastavíte tréning.

  • Zrušíte tréning.

  • Tréning zlyhá.

Každý poplatok pokrýva prírastkovú prácu vykonanú od posledného účtovania. Napríklad:

  • Ak beh pozastavíte, uložíme checkpoint a naúčtujeme vám čas výpočtov a tokeny hodnotiteľov použité od posledného účtovania.

  • Keď obnovíte beh, tréning pokračuje od checkpointu. Ďalší poplatok (pri dokončení, ďalšom pozastavení, zrušení alebo zlyhaní) bude pokrývať len dodatočnú prácu vykonanú po obnovení.

  • Ak beh zrušíte, účtujeme vám prácu vykonanú do momentu zrušenia.

  • Ak tréning zlyhá a práca od posledného účtovania sa stratí, za stratenú časť sa vám nič neúčtuje.

Tento prístup „zachyteného postupu vpred“ zaisťuje, že platíte len za prácu, ktorá zostane vo vašom modeli alebo ktorej sa zámerne vzdáte.

Zobrazenie priebehu úlohy

Úlohy RFT majú pole s názvom usage_metrics, ktoré dokumentuje celkové využitie úlohy až po aktuálny krok. Zahŕňa to čas strávený tréningom a všetky tokeny použité všetkými modelovými hodnotiteľmi v úlohe. Toto pole možno skontrolovať cez API (GET /v1/fine_tuning/jobs/{job_id}) alebo cez ovládací panel jemného dolaďovania.

Faktory, ktoré ovplyvňujú čas tréningu

Keďže účtovanie je založené na čase, vaše voľby konfigurácie priamo ovplyvňujú cenu. Medzi kľúčové faktory patria:

  • Náročnosť problému: ak vaša množina údajov pozostáva z náročných problémov, model pravdepodobne strávi viac času uvažovaním o každom probléme, čo zvyšuje čas potrebný na vytvorenie každej vzorky.

  • Výpočtová náročnosť: Hyperparameter compute_multiplier určuje, koľko výpočtov vykonáte v každom tréningovom kroku. Vyššie hodnoty vedú model k podrobnejšiemu uvažovaniu o každom dátovom bode, čo spôsobuje pomalší beh každého kroku.

  • Nastavenia validácie:

    • Väčšia validačná množina zvyšuje čas strávený vyhodnocovaním.

    • Zvýšenie eval_samples (počtu výstupov modelu hodnotených na jeden validačný príklad) predlžuje čas validácie.

    • Častejšie spúšťanie validácie (nižšie eval_interval) zvyšuje podiel času stráveného validáciou.

  • Výkon hodnotiteľov:

    • Väčšie alebo schopnejšie modelové hodnotitele vracajú hodnotenie pomalšie než menšie. Napríklad hodnotenie pomocou uvažovacieho modelu môže trvať 10× dlhšie než hodnotenie pomocou modelu bez uvažovania.

    • Zložité hodnotiace funkcie v jazyku Python sa vykonávajú dlhšie než jednoduché.

Tieto nastavenia vám umožňujú robiť kompromis medzi cenou, rýchlosťou a kvalitou modelu. Napríklad častá validácia môže odhaliť problémy skôr, ale zvyšuje cenu. Hodnotenie pomocou pokročilejšieho modelu môže výrazne zlepšiť presnosť hodnotenia, ale spomalí každý krok hodnotenia a úlohy budú drahšie.

Riadenie nákladov

Ak chcete mať výdavky pod kontrolou:

  • Začnite kratšími behmi, aby ste pochopili, ako vaša konfigurácia ovplyvňuje čas.

  • Používajte primeraný počet validačných príkladov a eval_samples. Vyhnite sa častejšej validácii, než potrebujete.

  • Vyberte najmenší model hodnotiteľa, ktorý spĺňa vaše požiadavky na kvalitu.

  • Udržiavajte vlastné hodnotitele v jazyku Python efektívne.

  • Upravte compute_multiplier tak, aby ste vyvážili rýchlosť konvergencie a cenu.

  • Sledujte svoj beh na ovládacom paneli alebo cez API. Kedykoľvek ho môžete pozastaviť alebo zrušiť.

Príklady

Úspešné spustenie tréningu

Čas tréninguFakturovaný časStavOpis
00:0000:00Používateľ vytvorí úlohu RFT cez API
00:1000:00VALIDATING_FILES10 minút strávených overovaním množiny údajov
00:3000:00VALIDATING_FILES20 minút vykonávania bezpečnostných kontrol množiny údajov
01:0000:00QUEUED30 minút čakania na dostupného pracovníka
01:3000:00RUNNING30 minút nastavovania tréningu (sťahovanie váh, predspracovanie atď.)
05:3004:00RUNNING4 hodiny strávené tréningom
06:0004:00RUNNING30 minút vykonávania bezpečnostných vyhodnotení výsledného modelu
06:0004:00SUCCEEDEDTréning sa dokončí

V tomto prípade je celkový reálny čas 6 hodín, ale fakturovateľné sú iba 4 hodiny. Cena by bola 4 hodiny × $100/hodinu = $400.

Príklad zlyhanej úlohy

V tomto príklade sa spustenie trénuje 2 hodiny, zapíše kontrolný bod, trénuje sa ešte 1 hodinu, ale potom zlyhá. Fakturovateľné sú iba 2 hodiny tréningu po kontrolný bod.

Čas tréninguFakturovaný časStavOpis
00:0000:00Používateľ vytvorí úlohu RFT cez API
00:1000:00VALIDATING_FILES10 minút strávených overovaním množiny údajov
00:3000:00VALIDATING_FILES20 minút vykonávania bezpečnostných kontrol množiny údajov
01:0000:00QUEUED30 minút čakania na dostupného pracovníka
01:3000:00RUNNING30 minút nastavovania tréningu (sťahovanie váh, predspracovanie atď.)
03:3002:00RUNNING2 hodiny strávené tréningom
03:3002:00RUNNINGKontrolný bod vytvorený v kroku 5
04:3002:00RUNNINGTréning zlyhá pre internú chybu v kroku 8 (po ďalšej 1 hodine)
04:3002:00RUNNING30 minút vyhodnocovania a overovania kontrolného bodu
04:3002:00SUCCEEDEDÚloha sa dokončí (s najnovším kontrolným bodom)

Aj keď sa tréningom strávili celkovo 3 hodiny, iba 2 hodiny sú „zachytené“ v použiteľnom kontrolnom bode a fakturujú sa. Za hodinu tréningovej práce stratenú v dôsledku zlyhania nenesiete zodpovednosť. Cena by bola 2 hodiny × $100/hodinu = $200.

Často kladené otázky

Kedy mi bude účtovaný poplatok?

Fakturujeme, keď sa vaše spustenie dokončí, pozastaví, zruší alebo zlyhá. Každá faktúra zahŕňa prácu vykonanú od predchádzajúcej faktúry.

Platím, ak spustenie zlyhá?

Ak spustenie zlyhá v dôsledku našej chyby a stratí sa akákoľvek nedávna tréningová práca, za stratenú časť vám neúčtujeme poplatok. Ak spustenie zrušíte, účtujeme vám prácu vykonanú do zrušenia.

Ako sa fakturujú tokeny modelov hodnotiteľov?

Počítame tokeny použité všetkými modelovými hodnotiteľmi, ktorých nakonfigurujete. Po dokončení tréningu tieto tokeny fakturujeme podľa našich štandardných sadzieb za token.

Môžem spustenie pozastaviť a obnoviť?

Áno. Keď spustenie pozastavíte, uložíme kontrolný bod a zaúčtujeme prácu vykonanú dovtedy. Keď spustenie obnovíte, účtovať sa vám bude iba dodatočná práca vykonaná po obnovení.

Ak máte ďalšie otázky o fakturácii Reinforcement Fine‑Tuning, kontaktujte náš tím podpory.

Bol tento článok užitočný?