Ako funguje účtovanie za RFT
Reinforcement Fine‑Tuning (RFT) vám umožňuje optimalizovať výkon uvažovacích modelov OpenAI pomocou učenia posilňovaním. Na rozdiel od našich ponúk dolaďovania s učiteľom alebo podľa preferencií, ktoré sa účtujú podľa počtu tokenov v trénovacej množine údajov, sa RFT účtuje podľa času, počas ktorého tréningový beh vykonáva hlavnú prácu strojového učenia.
Táto príručka vysvetľuje, čo sa počíta ako účtovateľný čas tréningu, ako riešime pozastavenia a zrušenia a ako môžu vaše voľby konfigurácie ovplyvniť cenu.
Cenník
Výpočty: 100 $ za hodinu reálneho času stráveného v hlavnej tréningovej slučke pre
o4-mini-2025-04-16. Poplatky sa pomerne prepočítavajú na sekundy a na faktúre sa zaokrúhľujú na dve desatinné miesta (napr. 2,55 hodiny).Využitie modelových hodnotiteľov: Ak počas tréningu použijete model OpenAI na „hodnotenie“ výstupov, tokeny spotrebované týmito hodnotiacimi volaniami sa po dokončení tréningu účtujú samostatne podľa našich štandardných sadzieb API.
Účtujeme len za tréningovú prácu, ktorá skutočne aktualizuje váš model (to, čo nazývame „zachytený postup vpred“).
Čo fakturujeme
Fakturujeme čas, ktorý váš tréningový pracovník strávi aktívnym tréningom vášho modelu, konkrétne:
Generovanie vzoriek z vášho modelu počas procesu jemného dolaďovania (známe ako „rollouts“)
Vyhodnocovanie týchto výstupov jedným alebo viacerými hodnotiteľmi, ktorých ste definovali v úlohe (ďalšie informácie o hodnotiteľoch)
Výpočet a použitie aktualizácií váh na základe hodnotení (spätné šírenie).
Spúšťanie všetkých krokov overenia (vyhodnotenia), ktoré ste nakonfigurovali.
Spustenie väčšiny hodnotiteľov je „bezplatné“, čo znamená, že za ich použitie neúčtujeme nič navyše okrem času, ktorým prispievajú k základnej tréningovej slučke. Výnimkou sú modeloví hodnotitelia, pri ktorých započítavame aj tokeny, ktoré títo hodnotitelia spotrebujú počas vyššie uvedených aktivít. Tieto tokeny sa na vašej faktúre zobrazia ako samostatná položka. Tokeny spotrebované modelovými hodnotiteľmi sa fakturujú podľa bežných sadzieb za inferenciu (cenník OpenAI).
Za čo NEúčtujeme
Neúčtujeme čas strávený:
Validáciou alebo kontrolou vašej množiny údajov pred začiatkom tréningu.
Bezpečnostnými kontrolami vašej množiny údajov.
Čakaním v rade na výpočtové prostriedky.
Sťahovaním váh modelu alebo množín údajov.
Prípravou (renderovaním) vašej množiny údajov do nášho tréningového formátu.
Bezpečnostnými vyhodnoteniami vášho doladeného modelu po tréningu.
Ak sa tréningová práca stratí v dôsledku chyby na našej strane (napríklad ak worker spadne a musí sa vrátiť k predchádzajúcemu checkpointu), za stratený čas výpočtov ani tokeny hodnotiteľov sa vám nič neúčtuje. Viac podrobností nájdete v ďalšej časti.
Zachytený postup vpred a udalosti účtovania
Tréning pozostáva z mnohých malých aktualizácií vášho modelu. Sledujeme, koľko z týchto aktualizácií sa úspešne dokončí. Poplatky sú založené na čase výpočtov a tokenoch hodnotiteľov spojených s týmito úspešnými aktualizáciami.
Poplatok zaúčtujeme, keď nastane jedna z nasledujúcich „udalostí účtovania“:
Tréning sa úspešne dokončí.
Pozastavíte tréning.
Zrušíte tréning.
Tréning zlyhá.
Každý poplatok pokrýva prírastkovú prácu vykonanú od posledného účtovania. Napríklad:
Ak beh pozastavíte, uložíme checkpoint a naúčtujeme vám čas výpočtov a tokeny hodnotiteľov použité od posledného účtovania.
Keď obnovíte beh, tréning pokračuje od checkpointu. Ďalší poplatok (pri dokončení, ďalšom pozastavení, zrušení alebo zlyhaní) bude pokrývať len dodatočnú prácu vykonanú po obnovení.
Ak beh zrušíte, účtujeme vám prácu vykonanú do momentu zrušenia.
Ak tréning zlyhá a práca od posledného účtovania sa stratí, za stratenú časť sa vám nič neúčtuje.
Tento prístup „zachyteného postupu vpred“ zaisťuje, že platíte len za prácu, ktorá zostane vo vašom modeli alebo ktorej sa zámerne vzdáte.
Zobrazenie priebehu úlohy
Úlohy RFT majú pole s názvom usage_metrics, ktoré dokumentuje celkové využitie úlohy až po aktuálny krok. Zahŕňa to čas strávený tréningom a všetky tokeny použité všetkými modelovými hodnotiteľmi v úlohe. Toto pole možno skontrolovať cez API (GET /v1/fine_tuning/jobs/{job_id}) alebo cez ovládací panel jemného dolaďovania.
Faktory, ktoré ovplyvňujú čas tréningu
Keďže účtovanie je založené na čase, vaše voľby konfigurácie priamo ovplyvňujú cenu. Medzi kľúčové faktory patria:
Náročnosť problému: ak vaša množina údajov pozostáva z náročných problémov, model pravdepodobne strávi viac času uvažovaním o každom probléme, čo zvyšuje čas potrebný na vytvorenie každej vzorky.
Výpočtová náročnosť: Hyperparameter
compute_multiplierurčuje, koľko výpočtov vykonáte v každom tréningovom kroku. Vyššie hodnoty vedú model k podrobnejšiemu uvažovaniu o každom dátovom bode, čo spôsobuje pomalší beh každého kroku.Nastavenia validácie:
Väčšia validačná množina zvyšuje čas strávený vyhodnocovaním.
Zvýšenie
eval_samples(počtu výstupov modelu hodnotených na jeden validačný príklad) predlžuje čas validácie.Častejšie spúšťanie validácie (nižšie
eval_interval) zvyšuje podiel času stráveného validáciou.
Výkon hodnotiteľov:
Väčšie alebo schopnejšie modelové hodnotitele vracajú hodnotenie pomalšie než menšie. Napríklad hodnotenie pomocou uvažovacieho modelu môže trvať 10× dlhšie než hodnotenie pomocou modelu bez uvažovania.
Zložité hodnotiace funkcie v jazyku Python sa vykonávajú dlhšie než jednoduché.
Tieto nastavenia vám umožňujú robiť kompromis medzi cenou, rýchlosťou a kvalitou modelu. Napríklad častá validácia môže odhaliť problémy skôr, ale zvyšuje cenu. Hodnotenie pomocou pokročilejšieho modelu môže výrazne zlepšiť presnosť hodnotenia, ale spomalí každý krok hodnotenia a úlohy budú drahšie.
Riadenie nákladov
Ak chcete mať výdavky pod kontrolou:
Začnite kratšími behmi, aby ste pochopili, ako vaša konfigurácia ovplyvňuje čas.
Používajte primeraný počet validačných príkladov a
eval_samples. Vyhnite sa častejšej validácii, než potrebujete.Vyberte najmenší model hodnotiteľa, ktorý spĺňa vaše požiadavky na kvalitu.
Udržiavajte vlastné hodnotitele v jazyku Python efektívne.
Upravte
compute_multipliertak, aby ste vyvážili rýchlosť konvergencie a cenu.Sledujte svoj beh na ovládacom paneli alebo cez API. Kedykoľvek ho môžete pozastaviť alebo zrušiť.
Príklady
Úspešné spustenie tréningu
| Čas tréningu | Fakturovaný čas | Stav | Opis |
|---|---|---|---|
| 00:00 | 00:00 | – | Používateľ vytvorí úlohu RFT cez API |
| 00:10 | 00:00 | VALIDATING_FILES | 10 minút strávených overovaním množiny údajov |
| 00:30 | 00:00 | VALIDATING_FILES | 20 minút vykonávania bezpečnostných kontrol množiny údajov |
| 01:00 | 00:00 | QUEUED | 30 minút čakania na dostupného pracovníka |
| 01:30 | 00:00 | RUNNING | 30 minút nastavovania tréningu (sťahovanie váh, predspracovanie atď.) |
| 05:30 | 04:00 | RUNNING | 4 hodiny strávené tréningom |
| 06:00 | 04:00 | RUNNING | 30 minút vykonávania bezpečnostných vyhodnotení výsledného modelu |
| 06:00 | 04:00 | SUCCEEDED | Tréning sa dokončí |
V tomto prípade je celkový reálny čas 6 hodín, ale fakturovateľné sú iba 4 hodiny. Cena by bola 4 hodiny × $100/hodinu = $400.
Príklad zlyhanej úlohy
V tomto príklade sa spustenie trénuje 2 hodiny, zapíše kontrolný bod, trénuje sa ešte 1 hodinu, ale potom zlyhá. Fakturovateľné sú iba 2 hodiny tréningu po kontrolný bod.
| Čas tréningu | Fakturovaný čas | Stav | Opis |
|---|---|---|---|
| 00:00 | 00:00 | – | Používateľ vytvorí úlohu RFT cez API |
| 00:10 | 00:00 | VALIDATING_FILES | 10 minút strávených overovaním množiny údajov |
| 00:30 | 00:00 | VALIDATING_FILES | 20 minút vykonávania bezpečnostných kontrol množiny údajov |
| 01:00 | 00:00 | QUEUED | 30 minút čakania na dostupného pracovníka |
| 01:30 | 00:00 | RUNNING | 30 minút nastavovania tréningu (sťahovanie váh, predspracovanie atď.) |
| 03:30 | 02:00 | RUNNING | 2 hodiny strávené tréningom |
| 03:30 | 02:00 | RUNNING | Kontrolný bod vytvorený v kroku 5 |
| 04:30 | 02:00 | RUNNING | Tréning zlyhá pre internú chybu v kroku 8 (po ďalšej 1 hodine) |
| 04:30 | 02:00 | RUNNING | 30 minút vyhodnocovania a overovania kontrolného bodu |
| 04:30 | 02:00 | SUCCEEDED | Úloha sa dokončí (s najnovším kontrolným bodom) |
Aj keď sa tréningom strávili celkovo 3 hodiny, iba 2 hodiny sú „zachytené“ v použiteľnom kontrolnom bode a fakturujú sa. Za hodinu tréningovej práce stratenú v dôsledku zlyhania nenesiete zodpovednosť. Cena by bola 2 hodiny × $100/hodinu = $200.
Často kladené otázky
Kedy mi bude účtovaný poplatok?
Fakturujeme, keď sa vaše spustenie dokončí, pozastaví, zruší alebo zlyhá. Každá faktúra zahŕňa prácu vykonanú od predchádzajúcej faktúry.
Platím, ak spustenie zlyhá?
Ak spustenie zlyhá v dôsledku našej chyby a stratí sa akákoľvek nedávna tréningová práca, za stratenú časť vám neúčtujeme poplatok. Ak spustenie zrušíte, účtujeme vám prácu vykonanú do zrušenia.
Ako sa fakturujú tokeny modelov hodnotiteľov?
Počítame tokeny použité všetkými modelovými hodnotiteľmi, ktorých nakonfigurujete. Po dokončení tréningu tieto tokeny fakturujeme podľa našich štandardných sadzieb za token.
Môžem spustenie pozastaviť a obnoviť?
Áno. Keď spustenie pozastavíte, uložíme kontrolný bod a zaúčtujeme prácu vykonanú dovtedy. Keď spustenie obnovíte, účtovať sa vám bude iba dodatočná práca vykonaná po obnovení.
Ak máte ďalšie otázky o fakturácii Reinforcement Fine‑Tuning, kontaktujte náš tím podpory.
