OpenAI
Tato stránka byla přeložena strojově. Zobrazit původní článek v angličtině.

Příručka k účtování pro API Reinforcement Fine-Tuning

Jak funguje účtování pro API RFT

Aktualizováno: 15 days ago

Jak funguje účtování za RFT

Reinforcement Fine‑Tuning (RFT) vám umožňuje optimalizovat výkon modelů OpenAI s uvažováním pomocí učení posilováním. Na rozdíl od našeho supervizovaného fine-tuningu nebo fine-tuningu podle preferencí, které se účtují podle počtu tokenů v trénovací sadě, se RFT účtuje podle času, který trénovací běh stráví prováděním hlavní práce strojového učení.

Tato příručka vysvětluje, co se započítává do zpoplatněného času trénování, jak řešíme pozastavení a zrušení a jak mohou vaše volby konfigurace ovlivnit cenu.

Ceník

  • Výpočetní výkon: 100 USD za hodinu reálného času stráveného v hlavní trénovací smyčce pro o4-mini-2025-04-16. Poplatky se účtují poměrně po sekundách a na faktuře se zaokrouhlují na dvě desetinná místa (např. 2,55 hodiny).

  • Využití modelových hodnotitelů: Pokud během trénování používáte model OpenAI k „hodnocení“ výstupů, tokeny spotřebované těmito hodnoticími voláními se po dokončení trénování účtují samostatně podle našich standardních sazeb API.

Účtujeme pouze za trénovací práci, která skutečně aktualizuje váš model (tomu říkáme „zachycený průběžný pokrok“).

Za co účtujeme

Účtujeme čas, který váš trénovací pracovní proces stráví aktivním trénováním modelu, konkrétně:

  • Generováním vzorků z vašeho modelu během procesu fine-tuningu (tzv. „rollouty“)

  • Vyhodnocováním těchto výstupů jedním nebo více hodnotiteli, které jste pro úlohu definovali (zjistěte více o hodnotitelích)

  • Výpočtem a aplikací aktualizací vah na základě hodnocení (zpětná propagace).

  • Spouštěním všech validačních (evaluačních) kroků, které jste nakonfigurovali.

Spuštění většiny hodnotitelů je „zdarma“, což znamená, že za jejich použití neúčtujeme nic navíc mimo čas, kterým přispívají do hlavní trénovací smyčky. Výjimkou jsou modeloví hodnotitelé, u nichž navíc počítáme tokeny, které během výše uvedených činností spotřebují. Tyto tokeny se na faktuře zobrazí jako samostatná položka. Tokeny spotřebované modelovými hodnotiteli se účtují podle běžných sazeb za inference (ceny OpenAI).

Za co NEúčtujeme

Neúčtujeme čas strávený:

  • Validací nebo kontrolou vaší datové sady před zahájením trénování.

  • Bezpečnostními kontrolami vaší datové sady.

  • Čekáním ve frontě na výpočetní prostředky.

  • Stahováním vah modelu nebo datových sad.

  • Přípravou (renderováním) vaší datové sady do našeho trénovacího formátu.

  • Bezpečnostním vyhodnocováním vašeho fine-tunovaného modelu po trénování.

Pokud se trénovací práce ztratí kvůli chybě na naší straně (například pokud pracovní proces havaruje a musí se vrátit k předchozímu checkpointu), za ztracený výpočetní čas ani tokeny hodnotitelů vám nic neúčtujeme. Více podrobností o tom najdete v další části.

Zachycený průběžný pokrok a fakturační události

Trénování se skládá z mnoha malých aktualizací modelu. Sledujeme, kolik z těchto aktualizací se úspěšně dokončí. Poplatky vycházejí z výpočetního času a tokenů hodnotitelů spojených s těmito úspěšnými aktualizacemi.

Poplatek účtujeme, když nastane jedna z následujících „fakturačních událostí“:

  • Trénování se úspěšně dokončí.

  • Trénování pozastavíte.

  • Trénování zrušíte.

  • Trénování selže.

Každý poplatek pokrývá přírůstkovou práci provedenou od posledního poplatku. Například:

  • Pokud běh pozastavíte, uložíme checkpoint a naúčtujeme vám výpočetní čas a tokeny hodnotitelů použité od posledního poplatku.

  • Když obnovíte běh, trénování pokračuje z checkpointu. Další poplatek (při dokončení, dalším pozastavení, zrušení nebo selhání) bude pokrývat jen dodatečnou práci provedenou po obnovení.

  • Pokud běh zrušíte, účtujeme vám práci provedenou do okamžiku zrušení.

  • Pokud trénování selže a práce od posledního poplatku se ztratí, za ztracenou část vám nic neúčtujeme.

Tento přístup „zachyceného průběžného pokroku“ zajišťuje, že platíte jen za práci, která ve vašem modelu zůstane nebo kterou záměrně opustíte.

Sledování průběhu úlohy

Úlohy RFT mají pole usage_metrics, které dokumentuje celkové využití úlohy až do aktuálního kroku. To zahrnuje čas strávený trénováním a všechny tokeny použité napříč všemi modelovými hodnotiteli v úloze. Toto pole lze zkontrolovat přes API (GET /v1/fine_tuning/jobs/{job_id}) nebo v panelu fine-tuningu.

Faktory ovlivňující dobu trénování

Protože se účtování odvíjí od času, vaše konfigurační volby přímo ovlivňují cenu. Mezi klíčové faktory patří:

  • Obtížnost problému: pokud se vaše datová sada skládá z obtížných problémů, model pravděpodobně stráví více času uvažováním nad každým problémem, což prodlužuje dobu potřebnou k vytvoření každého vzorku.

  • Výpočetní náročnost: Hyperparametr compute_multiplier určuje, kolik výpočtů provedete v každém kroku trénování. Vyšší hodnoty vedou model k podrobnějšímu uvažování nad každým datovým bodem, což zpomaluje každý krok.

  • Nastavení validace:

    • Větší validační sada zvyšuje čas strávený vyhodnocováním.

    • Zvýšení eval_samples (počtu výstupů modelu hodnocených pro každý validační příklad) prodlužuje dobu validace.

    • Častější spouštění validace (nižší eval_interval) zvyšuje podíl času stráveného validací.

  • Výkon hodnotitelů:

    • Větší nebo schopnější modeloví hodnotitelé vracejí hodnocení pomaleji než menší. Například hodnocení pomocí modelu s uvažováním může trvat 10× déle než hodnocení pomocí modelu bez uvažování.

    • Složité hodnoticí funkce v Pythonu běží déle než jednoduché.

Tato nastavení vám umožňují vyvažovat cenu, rychlost a kvalitu modelu. Například častá validace může odhalit problémy dříve, ale zvyšuje náklady. Hodnocení pomocí pokročilejšího modelu může výrazně zlepšit přesnost hodnocení, ale zpomalí každý hodnoticí krok a zdraží úlohy.

Řízení nákladů

Jak mít výdaje pod kontrolou:

  • Začněte kratšími běhy, abyste pochopili, jak vaše konfigurace ovlivňuje čas.

  • Používejte přiměřený počet validačních příkladů a eval_samples. Neprovádějte validaci častěji, než je potřeba.

  • Zvolte nejmenší model hodnotitele, který splňuje vaše požadavky na kvalitu.

  • Udržujte vlastní Python hodnotitele efektivní.

  • Upravte compute_multiplier tak, abyste vyvážili rychlost konvergence a cenu.

  • Sledujte svůj běh v panelu nebo přes API. Kdykoli jej můžete pozastavit nebo zrušit.

Příklady

Úspěšný trénovací běh

Doba trénováníÚčtovaná dobaStavPopis
00 : 0000 : 00Uživatel vytvoří úlohu RFT přes API
00 : 1000 : 00VALIDATING_FILES10 minut validace datové sady
00 : 3000 : 00VALIDATING_FILES20 minut kontrol bezpečnosti datové sady
01 : 0000 : 00QUEUED30 minut čekání na dostupný pracovní proces
01 : 3000 : 00RUNNING30 minut přípravy trénování (stahování vah, předzpracování atd.)
05 : 3004 : 00RUNNING4 hodiny trénování
06 : 0004 : 00RUNNING30 minut bezpečnostního vyhodnocování výsledného modelu
06 : 0004 : 00SUCCEEDEDTrénování skončí

V tomto případě je celkový reálný čas 6 hodin, ale zpoplatněny jsou jen 4 hodiny. Cena by byla 4 hodiny × 100 USD/hodina = 400 USD.

Příklad selhané úlohy

V tomto příkladu se běh trénuje 2 hodiny, zapíše checkpoint, trénuje ještě 1 hodinu, ale pak selže. Účtují se pouze 2 hodiny trénování do checkpointu.

Doba trénováníÚčtovaná dobaStavPopis
00 : 0000 : 00Uživatel vytvoří úlohu RFT přes API
00 : 1000 : 00VALIDATING_FILES10 minut validace datové sady
00 : 3000 : 00VALIDATING_FILES20 minut kontrol bezpečnosti datové sady
01 : 0000 : 00QUEUED30 minut čekání na dostupný pracovní proces
01 : 3000 : 00RUNNING30 minut přípravy trénování (stahování vah, předzpracování atd.)
03 : 3002 : 00RUNNING2 hodiny trénování
03 : 3002 : 00RUNNINGCheckpoint vytvořen v kroku 5
04 : 3002 : 00RUNNINGTrénování selže kvůli interní chybě v kroku 8 (po další 1 hodině)
04 : 3002 : 00RUNNING30 minut vyhodnocování a validace checkpointu
04 : 3002 : 00SUCCEEDEDÚloha skončí (s nejnovějším checkpointem)

I když byly celkem stráveny 3 hodiny trénováním, účtují se jen 2 hodiny „zachycené“ v použitelném checkpointu. Hodina trénovací práce ztracená kvůli selhání není vaší odpovědností. Cena by byla 2 hodiny × 100 USD/hodina = 200 USD.

Často kladené otázky

Kdy se mi účtuje poplatek?

Účtujeme, když se váš běh dokončí, pozastaví, zruší nebo selže. Každé vyúčtování pokrývá práci provedenou od předchozího vyúčtování.

Platím, když běh selže?

Pokud běh selže kvůli naší chybě a část nedávné trénovací práce se ztratí, za ztracenou část vám nic neúčtujeme. Pokud běh zrušíte, účtujeme práci provedenou do okamžiku zrušení.

Jak se účtují tokeny modelů hodnotitelů?

Počítáme tokeny použité jakýmikoli modelovými hodnotiteli, které nakonfigurujete. Po dokončení trénování tyto tokeny vyúčtujeme podle našich standardních sazeb za token.

Mohu běh pozastavit a znovu spustit?

Ano. Když běh pozastavíte, uložíme checkpoint a naúčtujeme dosud provedenou práci. Když běh obnovíte, budou vám účtovány jen další práce provedené po obnovení.

Pokud máte další dotazy k účtování za Reinforcement Fine‑Tuning, kontaktujte náš tým podpory.

Byl tento článek užitečný?