Jak funguje účtování za RFT
Reinforcement Fine‑Tuning (RFT) vám umožňuje optimalizovat výkon modelů OpenAI s uvažováním pomocí učení posilováním. Na rozdíl od našeho supervizovaného fine-tuningu nebo fine-tuningu podle preferencí, které se účtují podle počtu tokenů v trénovací sadě, se RFT účtuje podle času, který trénovací běh stráví prováděním hlavní práce strojového učení.
Tato příručka vysvětluje, co se započítává do zpoplatněného času trénování, jak řešíme pozastavení a zrušení a jak mohou vaše volby konfigurace ovlivnit cenu.
Ceník
Výpočetní výkon: 100 USD za hodinu reálného času stráveného v hlavní trénovací smyčce pro
o4-mini-2025-04-16. Poplatky se účtují poměrně po sekundách a na faktuře se zaokrouhlují na dvě desetinná místa (např. 2,55 hodiny).Využití modelových hodnotitelů: Pokud během trénování používáte model OpenAI k „hodnocení“ výstupů, tokeny spotřebované těmito hodnoticími voláními se po dokončení trénování účtují samostatně podle našich standardních sazeb API.
Účtujeme pouze za trénovací práci, která skutečně aktualizuje váš model (tomu říkáme „zachycený průběžný pokrok“).
Za co účtujeme
Účtujeme čas, který váš trénovací pracovní proces stráví aktivním trénováním modelu, konkrétně:
Generováním vzorků z vašeho modelu během procesu fine-tuningu (tzv. „rollouty“)
Vyhodnocováním těchto výstupů jedním nebo více hodnotiteli, které jste pro úlohu definovali (zjistěte více o hodnotitelích)
Výpočtem a aplikací aktualizací vah na základě hodnocení (zpětná propagace).
Spouštěním všech validačních (evaluačních) kroků, které jste nakonfigurovali.
Spuštění většiny hodnotitelů je „zdarma“, což znamená, že za jejich použití neúčtujeme nic navíc mimo čas, kterým přispívají do hlavní trénovací smyčky. Výjimkou jsou modeloví hodnotitelé, u nichž navíc počítáme tokeny, které během výše uvedených činností spotřebují. Tyto tokeny se na faktuře zobrazí jako samostatná položka. Tokeny spotřebované modelovými hodnotiteli se účtují podle běžných sazeb za inference (ceny OpenAI).
Za co NEúčtujeme
Neúčtujeme čas strávený:
Validací nebo kontrolou vaší datové sady před zahájením trénování.
Bezpečnostními kontrolami vaší datové sady.
Čekáním ve frontě na výpočetní prostředky.
Stahováním vah modelu nebo datových sad.
Přípravou (renderováním) vaší datové sady do našeho trénovacího formátu.
Bezpečnostním vyhodnocováním vašeho fine-tunovaného modelu po trénování.
Pokud se trénovací práce ztratí kvůli chybě na naší straně (například pokud pracovní proces havaruje a musí se vrátit k předchozímu checkpointu), za ztracený výpočetní čas ani tokeny hodnotitelů vám nic neúčtujeme. Více podrobností o tom najdete v další části.
Zachycený průběžný pokrok a fakturační události
Trénování se skládá z mnoha malých aktualizací modelu. Sledujeme, kolik z těchto aktualizací se úspěšně dokončí. Poplatky vycházejí z výpočetního času a tokenů hodnotitelů spojených s těmito úspěšnými aktualizacemi.
Poplatek účtujeme, když nastane jedna z následujících „fakturačních událostí“:
Trénování se úspěšně dokončí.
Trénování pozastavíte.
Trénování zrušíte.
Trénování selže.
Každý poplatek pokrývá přírůstkovou práci provedenou od posledního poplatku. Například:
Pokud běh pozastavíte, uložíme checkpoint a naúčtujeme vám výpočetní čas a tokeny hodnotitelů použité od posledního poplatku.
Když obnovíte běh, trénování pokračuje z checkpointu. Další poplatek (při dokončení, dalším pozastavení, zrušení nebo selhání) bude pokrývat jen dodatečnou práci provedenou po obnovení.
Pokud běh zrušíte, účtujeme vám práci provedenou do okamžiku zrušení.
Pokud trénování selže a práce od posledního poplatku se ztratí, za ztracenou část vám nic neúčtujeme.
Tento přístup „zachyceného průběžného pokroku“ zajišťuje, že platíte jen za práci, která ve vašem modelu zůstane nebo kterou záměrně opustíte.
Sledování průběhu úlohy
Úlohy RFT mají pole usage_metrics, které dokumentuje celkové využití úlohy až do aktuálního kroku. To zahrnuje čas strávený trénováním a všechny tokeny použité napříč všemi modelovými hodnotiteli v úloze. Toto pole lze zkontrolovat přes API (GET /v1/fine_tuning/jobs/{job_id}) nebo v panelu fine-tuningu.
Faktory ovlivňující dobu trénování
Protože se účtování odvíjí od času, vaše konfigurační volby přímo ovlivňují cenu. Mezi klíčové faktory patří:
Obtížnost problému: pokud se vaše datová sada skládá z obtížných problémů, model pravděpodobně stráví více času uvažováním nad každým problémem, což prodlužuje dobu potřebnou k vytvoření každého vzorku.
Výpočetní náročnost: Hyperparametr
compute_multiplierurčuje, kolik výpočtů provedete v každém kroku trénování. Vyšší hodnoty vedou model k podrobnějšímu uvažování nad každým datovým bodem, což zpomaluje každý krok.Nastavení validace:
Větší validační sada zvyšuje čas strávený vyhodnocováním.
Zvýšení
eval_samples(počtu výstupů modelu hodnocených pro každý validační příklad) prodlužuje dobu validace.Častější spouštění validace (nižší
eval_interval) zvyšuje podíl času stráveného validací.
Výkon hodnotitelů:
Větší nebo schopnější modeloví hodnotitelé vracejí hodnocení pomaleji než menší. Například hodnocení pomocí modelu s uvažováním může trvat 10× déle než hodnocení pomocí modelu bez uvažování.
Složité hodnoticí funkce v Pythonu běží déle než jednoduché.
Tato nastavení vám umožňují vyvažovat cenu, rychlost a kvalitu modelu. Například častá validace může odhalit problémy dříve, ale zvyšuje náklady. Hodnocení pomocí pokročilejšího modelu může výrazně zlepšit přesnost hodnocení, ale zpomalí každý hodnoticí krok a zdraží úlohy.
Řízení nákladů
Jak mít výdaje pod kontrolou:
Začněte kratšími běhy, abyste pochopili, jak vaše konfigurace ovlivňuje čas.
Používejte přiměřený počet validačních příkladů a
eval_samples. Neprovádějte validaci častěji, než je potřeba.Zvolte nejmenší model hodnotitele, který splňuje vaše požadavky na kvalitu.
Udržujte vlastní Python hodnotitele efektivní.
Upravte
compute_multipliertak, abyste vyvážili rychlost konvergence a cenu.Sledujte svůj běh v panelu nebo přes API. Kdykoli jej můžete pozastavit nebo zrušit.
Příklady
Úspěšný trénovací běh
| Doba trénování | Účtovaná doba | Stav | Popis |
| 00 : 00 | 00 : 00 | – | Uživatel vytvoří úlohu RFT přes API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minut validace datové sady |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minut kontrol bezpečnosti datové sady |
| 01 : 00 | 00 : 00 | QUEUED | 30 minut čekání na dostupný pracovní proces |
| 01 : 30 | 00 : 00 | RUNNING | 30 minut přípravy trénování (stahování vah, předzpracování atd.) |
| 05 : 30 | 04 : 00 | RUNNING | 4 hodiny trénování |
| 06 : 00 | 04 : 00 | RUNNING | 30 minut bezpečnostního vyhodnocování výsledného modelu |
| 06 : 00 | 04 : 00 | SUCCEEDED | Trénování skončí |
V tomto případě je celkový reálný čas 6 hodin, ale zpoplatněny jsou jen 4 hodiny. Cena by byla 4 hodiny × 100 USD/hodina = 400 USD.
Příklad selhané úlohy
V tomto příkladu se běh trénuje 2 hodiny, zapíše checkpoint, trénuje ještě 1 hodinu, ale pak selže. Účtují se pouze 2 hodiny trénování do checkpointu.
| Doba trénování | Účtovaná doba | Stav | Popis |
| 00 : 00 | 00 : 00 | – | Uživatel vytvoří úlohu RFT přes API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minut validace datové sady |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minut kontrol bezpečnosti datové sady |
| 01 : 00 | 00 : 00 | QUEUED | 30 minut čekání na dostupný pracovní proces |
| 01 : 30 | 00 : 00 | RUNNING | 30 minut přípravy trénování (stahování vah, předzpracování atd.) |
| 03 : 30 | 02 : 00 | RUNNING | 2 hodiny trénování |
| 03 : 30 | 02 : 00 | RUNNING | Checkpoint vytvořen v kroku 5 |
| 04 : 30 | 02 : 00 | RUNNING | Trénování selže kvůli interní chybě v kroku 8 (po další 1 hodině) |
| 04 : 30 | 02 : 00 | RUNNING | 30 minut vyhodnocování a validace checkpointu |
| 04 : 30 | 02 : 00 | SUCCEEDED | Úloha skončí (s nejnovějším checkpointem) |
I když byly celkem stráveny 3 hodiny trénováním, účtují se jen 2 hodiny „zachycené“ v použitelném checkpointu. Hodina trénovací práce ztracená kvůli selhání není vaší odpovědností. Cena by byla 2 hodiny × 100 USD/hodina = 200 USD.
Často kladené otázky
Kdy se mi účtuje poplatek?
Účtujeme, když se váš běh dokončí, pozastaví, zruší nebo selže. Každé vyúčtování pokrývá práci provedenou od předchozího vyúčtování.
Platím, když běh selže?
Pokud běh selže kvůli naší chybě a část nedávné trénovací práce se ztratí, za ztracenou část vám nic neúčtujeme. Pokud běh zrušíte, účtujeme práci provedenou do okamžiku zrušení.
Jak se účtují tokeny modelů hodnotitelů?
Počítáme tokeny použité jakýmikoli modelovými hodnotiteli, které nakonfigurujete. Po dokončení trénování tyto tokeny vyúčtujeme podle našich standardních sazeb za token.
Mohu běh pozastavit a znovu spustit?
Ano. Když běh pozastavíte, uložíme checkpoint a naúčtujeme dosud provedenou práci. Když běh obnovíte, budou vám účtovány jen další práce provedené po obnovení.
Pokud máte další dotazy k účtování za Reinforcement Fine‑Tuning, kontaktujte náš tým podpory.
