Jak funguje účtování za RFT

Reinforcement Fine‑Tuning (RFT) vám umožňuje optimalizovat výkon modelů OpenAI s uvažováním pomocí učení posilováním. Na rozdíl od našeho supervizovaného fine-tuningu nebo fine-tuningu podle preferencí, které se účtují podle počtu tokenů v trénovací sadě, se RFT účtuje podle času, který trénovací běh stráví prováděním hlavní práce strojového učení.

Tato příručka vysvětluje, co se započítává do zpoplatněného času trénování, jak řešíme pozastavení a zrušení a jak mohou vaše volby konfigurace ovlivnit cenu.

Ceník

Výpočetní výkon: 100 USD za hodinu reálného času stráveného v hlavní trénovací smyčce pro o4-mini-2025-04-16. Poplatky se účtují poměrně po sekundách a na faktuře se zaokrouhlují na dvě desetinná místa (např. 2,55 hodiny).
Využití modelových hodnotitelů: Pokud během trénování používáte model OpenAI k „hodnocení“ výstupů, tokeny spotřebované těmito hodnoticími voláními se po dokončení trénování účtují samostatně podle našich standardních sazeb API.

Účtujeme pouze za trénovací práci, která skutečně aktualizuje váš model (tomu říkáme „zachycený průběžný pokrok“).

Za co účtujeme

Účtujeme za čas, který váš trénovací worker stráví aktivním trénováním vašeho modelu, konkrétně:

Generování vzorků z vašeho modelu během procesu doladění (tzv. „rollouty“)
Vyhodnocování těchto výstupů jedním nebo více hodnotiteli, které jste v úloze definovali (další informace o hodnotitelích)
Výpočet a použití aktualizací vah na základě hodnocení (zpětné šíření).
Spouštění všech kroků validace (evaluace), které jste nakonfigurovali.

Většinu hodnotitelů lze spouštět „zdarma“, což znamená, že za jejich použití neúčtujeme nic navíc mimo dobu, kterou přispívají k hlavní trénovací smyčce. Výjimkou jsou modeloví hodnotitelé, u kterých také sčítáme tokeny, které tito hodnotitelé během výše uvedených aktivit spotřebují. Tyto tokeny se na vaší faktuře zobrazí jako samostatná položka. Tokeny spotřebované modelovými hodnotiteli jsou účtovány podle běžných sazeb za inferenci (ceny OpenAI).

Za co NEúčtujeme

Neúčtujeme čas strávený:

Validací nebo kontrolou vaší datové sady před zahájením trénování.
Bezpečnostními kontrolami vaší datové sady.
Čekáním ve frontě na výpočetní prostředky.
Stahováním vah modelu nebo datových sad.
Přípravou (renderováním) vaší datové sady do našeho trénovacího formátu.
Bezpečnostním vyhodnocováním vašeho fine-tunovaného modelu po trénování.

Pokud se trénovací práce ztratí kvůli chybě na naší straně (například pokud pracovní proces havaruje a musí se vrátit k předchozímu checkpointu), za ztracený výpočetní čas ani tokeny hodnotitelů vám nic neúčtujeme. Více podrobností o tom najdete v další části.

Zachycený průběžný pokrok a fakturační události

Trénování se skládá z mnoha malých aktualizací modelu. Sledujeme, kolik z těchto aktualizací se úspěšně dokončí. Poplatky vycházejí z výpočetního času a tokenů hodnotitelů spojených s těmito úspěšnými aktualizacemi.

Poplatek účtujeme, když nastane jedna z následujících „fakturačních událostí“:

Trénování se úspěšně dokončí.
Trénování pozastavíte.
Trénování zrušíte.
Trénování selže.

Každý poplatek pokrývá přírůstkovou práci provedenou od posledního poplatku. Například:

Pokud běh pozastavíte, uložíme checkpoint a naúčtujeme vám výpočetní čas a tokeny hodnotitelů použité od posledního poplatku.
Když obnovíte běh, trénování pokračuje z checkpointu. Další poplatek (při dokončení, dalším pozastavení, zrušení nebo selhání) bude pokrývat jen dodatečnou práci provedenou po obnovení.
Pokud běh zrušíte, účtujeme vám práci provedenou do okamžiku zrušení.
Pokud trénování selže a práce od posledního poplatku se ztratí, za ztracenou část vám nic neúčtujeme.

Tento přístup „zachyceného průběžného pokroku“ zajišťuje, že platíte jen za práci, která ve vašem modelu zůstane nebo kterou záměrně opustíte.

Zobrazení průběhu úlohy

Úlohy RFT mají pole s názvem usage_metrics, které dokumentuje celkové využití úlohy až do aktuálního kroku. To zahrnuje čas strávený trénováním a všechny tokeny použité napříč všemi modelovými hodnotiteli v úloze. Toto pole lze zkontrolovat přes API (GET /v1/fine_tuning/jobs/{job_id}) nebo přes řídicí panel pro doladění.

Faktory ovlivňující dobu trénování

Protože se účtování odvíjí od času, vaše konfigurační volby přímo ovlivňují cenu. Mezi klíčové faktory patří:

Obtížnost problému: pokud se vaše datová sada skládá z obtížných problémů, model pravděpodobně stráví více času uvažováním nad každým problémem, což prodlužuje dobu potřebnou k vytvoření každého vzorku.
Výpočetní náročnost: Hyperparametr compute_multiplier určuje, kolik výpočtů provedete v každém kroku trénování. Vyšší hodnoty vedou model k podrobnějšímu uvažování nad každým datovým bodem, což zpomaluje každý krok.
Nastavení validace:
- Větší validační sada zvyšuje čas strávený vyhodnocováním.
- Zvýšení eval_samples (počtu výstupů modelu hodnocených pro každý validační příklad) prodlužuje dobu validace.
- Častější spouštění validace (nižší eval_interval) zvyšuje podíl času stráveného validací.
Výkon hodnotitelů:
- Větší nebo schopnější modeloví hodnotitelé vracejí hodnocení pomaleji než menší. Například hodnocení pomocí modelu s uvažováním může trvat 10× déle než hodnocení pomocí modelu bez uvažování.
- Složité hodnoticí funkce v Pythonu běží déle než jednoduché.

Tato nastavení vám umožňují vyvažovat cenu, rychlost a kvalitu modelu. Například častá validace může odhalit problémy dříve, ale zvyšuje náklady. Hodnocení pomocí pokročilejšího modelu může výrazně zlepšit přesnost hodnocení, ale zpomalí každý hodnoticí krok a zdraží úlohy.

Řízení nákladů

Jak mít výdaje pod kontrolou:

Začněte kratšími běhy, abyste pochopili, jak vaše konfigurace ovlivňuje čas.
Používejte přiměřený počet validačních příkladů a eval_samples. Neprovádějte validaci častěji, než je potřeba.
Zvolte nejmenší model hodnotitele, který splňuje vaše požadavky na kvalitu.
Udržujte vlastní Python hodnotitele efektivní.
Upravte compute_multiplier tak, abyste vyvážili rychlost konvergence a cenu.
Sledujte svůj běh v panelu nebo přes API. Kdykoli jej můžete pozastavit nebo zrušit.

Příklady

Úspěšný trénovací běh

Doba trénování	Účtovaná doba	Stav	Popis
00:00	00:00	–	Uživatel vytvoří úlohu RFT přes API
00:10	00:00	VALIDATING_FILES	10 minut strávených ověřováním datové sady
00:30	00:00	VALIDATING_FILES	20 minut provádění bezpečnostních kontrol datové sady
01:00	00:00	QUEUED	30 minut čekání na dostupného workera
01:30	00:00	RUNNING	30 minut nastavování trénování (stahování vah, předzpracování atd.)
05:30	04:00	RUNNING	4 hodiny strávené trénováním
06:00	04:00	RUNNING	30 minut provádění bezpečnostních evaluací výsledného modelu
06:00	04:00	SUCCEEDED	Trénování se dokončí

V tomto případě je celkový uplynulý čas 6 hodin, ale účtovatelné jsou pouze 4 hodiny. Cena by byla 4 hodiny × $100/hodinu = $400.

Příklad neúspěšné úlohy

V tomto příkladu se běh trénuje 2 hodiny, zapíše kontrolní bod, trénuje se další 1 hodinu, ale poté selže. Účtovatelné jsou pouze 2 hodiny trénování do kontrolního bodu.

Doba trénování	Účtovaná doba	Stav	Popis
00:00	00:00	–	Uživatel vytvoří úlohu RFT přes API
00:10	00:00	VALIDATING_FILES	10 minut strávených ověřováním datové sady
00:30	00:00	VALIDATING_FILES	20 minut provádění bezpečnostních kontrol datové sady
01:00	00:00	QUEUED	30 minut čekání na dostupného workera
01:30	00:00	RUNNING	30 minut nastavování trénování (stahování vah, předzpracování atd.)
03:30	02:00	RUNNING	2 hodiny strávené trénováním
03:30	02:00	RUNNING	Kontrolní bod vytvořen v kroku 5
04:30	02:00	RUNNING	Trénování selže kvůli interní chybě v kroku 8 (po další 1 hodině)
04:30	02:00	RUNNING	30 minut evaluace a validace kontrolního bodu
04:30	02:00	SUCCEEDED	Úloha se dokončí (s nejnovějším kontrolním bodem)

I když trénování celkem trvalo 3 hodiny, v použitelném kontrolním bodu jsou „zachyceny“ a účtovány pouze 2 hodiny. Za hodinu trénovací práce ztracenou kvůli selhání nenesete odpovědnost. Cena by byla 2 hodiny × $100/hodinu = $200.

Často kladené otázky

Kdy mi bude účtováno?

Účtujeme, když se váš běh dokončí, pozastaví, zruší nebo selže. Každá fakturace pokrývá práci provedenou od předchozí fakturace.

Platím, když běh selže?

Pokud běh selže kvůli naší chybě a ztratí se nedávná trénovací práce, ztracená část vám nebude účtována. Pokud běh zrušíte, bude vám účtována práce provedená do okamžiku zrušení.

Jak se účtují tokeny modelů hodnotitelů?

Počítáme tokeny použité všemi modelovými hodnotiteli, které nakonfigurujete. Po dokončení trénování tyto tokeny účtujeme podle našich standardních sazeb za token.

Mohu běh pozastavit a obnovit?

Ano. Při pozastavení uložíme kontrolní bod a naúčtujeme práci provedenou do té doby. Po obnovení vám bude účtována pouze další práce provedená po obnovení.

Pokud máte další otázky k fakturaci Reinforcement Fine‑Tuning, kontaktujte náš tým podpory.

Příručka k účtování pro API Reinforcement Fine-Tuning