Kaip veikia RFT atsiskaitymas

Reinforcement Fine‑Tuning (RFT) leidžia optimizuoti OpenAI protavimo modelių našumą naudojant skatinamąjį mokymąsi. Kitaip nei mūsų prižiūrimojo ar pagal nuostatas atliekamo tikslinimo pasiūlymai, už kuriuos apmokestinama pagal žetonų skaičių mokymo duomenų rinkinyje, RFT apmokestinamas pagal laiką, kurį jūsų mokymo vykdymas praleidžia atlikdamas pagrindinius mašininio mokymosi darbus.

Šiame vadove paaiškinama, kas laikoma apmokestinamu mokymo laiku, kaip tvarkome pristabdymus ir atšaukimus ir kaip jūsų konfigūracijos pasirinkimai gali paveikti kainą.

Kainodara

Skaičiavimai: 100 USD už valandą faktinio laiko, praleisto pagrindiniame mokymo cikle, skirtame o4-mini-2025-04-16. Mokesčiai skaičiuojami proporcingai sekundėms ir sąskaitoje apvalinami iki dviejų skaitmenų po kablelio (pvz., 2,55 val.).
Vertintojo modelio naudojimas: jei mokymo metu OpenAI modelį naudojate išvestims „vertinti“, tų vertinimo iškvietimų sunaudoti žetonai po mokymo pabaigos apmokestinami atskirai pagal mūsų standartinius API tarifus.

Mokestį skaičiuojame tik už tokį mokymo darbą, kuris iš tikrųjų atnaujina jūsų modelį (tai vadiname „užfiksuota pažanga pirmyn“).

Už ką apmokestiname

Apmokestiname laiką, kurį jūsų mokymo darbuotojas praleidžia aktyviai mokydamas jūsų modelį, konkrečiai:

Pavyzdžių generavimas iš jūsų modelio tiksliojo derinimo proceso metu (vadinamieji „rollouts“)
Tų išvesčių vertinimas vienu ar daugiau vertintojų, kuriuos apibrėžėte užduotyje (sužinokite daugiau apie vertintojus)
Svorių atnaujinimų skaičiavimas ir taikymas pagal įvertinimus (atgalinis skleidimas).
Bet kokių jūsų sukonfigūruotų validavimo (vertinimo) veiksmų vykdymas.

Dauguma vertintojų veikia „nemokamai“, tai reiškia, kad už jų naudojimą papildomai neapmokestiname, išskyrus laiką, kuriuo jie prisideda prie pagrindinio mokymo ciklo. Išimtis taikoma modelio vertintojams: taip pat suskaičiuojame žetonus, kuriuos tie vertintojai sunaudoja per pirmiau nurodytas veiklas. Šie žetonai jūsų sąskaitoje pateikiami kaip atskira eilutė. Modelio vertintojų sunaudoti žetonai apmokestinami įprastais išvedimo tarifais (OpenAI kainodara).

Už ką mokesčio NESKAIČIUOJAME

Mokesčio neskaičiuojame už laiką, skirtą:

Jūsų duomenų rinkinio validavimui arba tikrinimui prieš pradedant mokymą.
Jūsų duomenų rinkinio saugos patikroms.
Laukimui eilėje skaičiavimo išteklių.
Modelio svorių arba duomenų rinkinių atsisiuntimui.
Jūsų duomenų rinkinio paruošimui (atvaizdavimui) į mūsų mokymo formatą.
Po mokymo atliekamiems jūsų tiksliai suderinto modelio saugos vertinimams.

Jei mokymo darbas prarandamas dėl klaidos mūsų pusėje (pavyzdžiui, jei vykdytojas sugenda ir turi grįžti prie ankstesnio kontrolinio taško), už prarastą skaičiavimo laiką ar vertintojo žetonus mokestis neskaičiuojamas. Daugiau informacijos apie tai pateikiama kitame skyriuje.

Užfiksuota pažanga pirmyn ir atsiskaitymo įvykiai

Mokymą sudaro daug mažų jūsų modelio atnaujinimų. Sekame, kiek šių atnaujinimų sėkmingai užbaigiama. Mokesčiai grindžiami skaičiavimo laiku ir vertintojo žetonais, susijusiais su šiais sėkmingais atnaujinimais.

Mokestį pritaikome, kai įvyksta vienas iš šių „atsiskaitymo įvykių“:

Mokymas sėkmingai užbaigiamas.
Jūs pristabdote mokymą.
Jūs atšaukiate mokymą.
Mokymas nepavyksta.

Kiekvienas mokestis apima prieauginį darbą, atliktą nuo paskutinio mokesčio pritaikymo. Pavyzdžiui:

Jei pristabdote vykdymą, išsaugome kontrolinį tašką ir apmokestiname skaičiavimo laiką bei vertintojo žetonus, panaudotus nuo paskutinio mokesčio pritaikymo.
Kai atnaujinate, mokymas tęsiamas nuo kontrolinio taško. Kitas mokestis (užbaigus, vėl pristabdžius, atšaukus arba įvykus nesėkmei) apims tik papildomą darbą, atliktą po atnaujinimo.
Jei atšaukiate vykdymą, apmokestiname už darbą, atliktą iki atšaukimo.
Jei mokymas nepavyksta ir nuo paskutinio mokesčio pritaikymo atliktas darbas prarandamas, už prarastą dalį mokestis neskaičiuojamas.

Šis „užfiksuotos pažangos pirmyn“ metodas užtikrina, kad mokate tik už darbą, kuris išlieka jūsų modelyje arba kurio sąmoningai atsisakote.

Užduoties eigos peržiūra

RFT užduotyse yra laukas usage_metrics, kuriame dokumentuojamas bendras užduoties naudojimas iki dabartinio veiksmo. Tai apima mokymui praleistą laiką ir visus žetonus, naudotus visuose užduoties modelio vertintojams. Šį lauką galima patikrinti per API (GET /v1/fine_tuning/jobs/{job_id}) arba tiksliojo derinimo informacijos suvestinėje.

Veiksniai, turintys įtakos mokymo laikui

Kadangi atsiskaitymas grindžiamas laiku, jūsų konfigūracijos pasirinkimai tiesiogiai veikia kainą. Pagrindiniai veiksniai:

Problemos sudėtingumas: jei jūsų duomenų rinkinį sudaro sudėtingos problemos, modelis tikriausiai skirs daugiau laiko kiekvienai problemai apmąstyti, todėl kiekvienam pavyzdžiui sukurti reikės daugiau laiko.
Skaičiavimo intensyvumas: hiperparametras compute_multiplier valdo, kiek skaičiavimų atliekate kiekviename mokymo žingsnyje. Didesnės reikšmės skatina modelį išsamiau svarstyti kiekvieną duomenų tašką, todėl kiekvienas žingsnis vyksta lėčiau.
Validavimo nustatymai:
- Didesnis validavimo rinkinys padidina vertinimui skiriamą laiką.
- Padidinus eval_samples (vienam validavimo pavyzdžiui įvertinamų modelio išvesčių skaičių), pailgėja validavimo laikas.
- Dažniau vykdant validavimą (mažesnis eval_interval) padidėja validavimui skiriamo laiko dalis.
Vertintojo našumas:
- Didesni arba pajėgesni vertintojų modeliai pažymį grąžina lėčiau nei mažesni. Pavyzdžiui, vertinimas naudojant protavimo modelį gali trukti 10 k. ilgiau nei vertinimas naudojant ne protavimo modelį.
- Sudėtingos Python vertinimo funkcijos vykdomos ilgiau nei paprastos.

Šie nustatymai leidžia derinti kainą, greitį ir modelio kokybę. Pavyzdžiui, dažnas validavimas gali padėti anksčiau pastebėti problemas, bet padidina kainą. Vertinimas naudojant pažangesnį modelį gali smarkiai pagerinti vertinimo tikslumą, tačiau sulėtins kiekvieną vertinimo žingsnį ir pabrangins užduotis.

Išlaidų valdymas

Kaip kontroliuoti išlaidas:

Pradėkite nuo trumpesnių vykdymų, kad suprastumėte, kaip jūsų konfigūracija veikia laiką.
Naudokite pagrįstą validavimo pavyzdžių skaičių ir eval_samples. Venkite validuoti dažniau, nei reikia.
Pasirinkite mažiausią vertintojo modelį, atitinkantį jūsų kokybės reikalavimus.
Užtikrinkite, kad pasirinktiniai Python vertintojai būtų efektyvūs.
Koreguokite compute_multiplier, kad subalansuotumėte konvergencijos greitį ir kainą.
Stebėkite vykdymą valdymo skydelyje arba per API. Bet kada galite pristabdyti arba atšaukti.

Pavyzdžiai

Sėkmingas mokymo vykdymas

Mokymo laikas	Apmokestintas laikas	Būsena	Aprašas
00:00	00:00	–	Naudotojas sukuria RFT užduotį per API
00:10	00:00	VALIDATING_FILES	10 minučių skirta duomenų rinkiniui tikrinti
00:30	00:00	VALIDATING_FILES	20 minučių vykdyti duomenų rinkinio saugos patikrinimai
01:00	00:00	QUEUED	30 minučių laukta laisvo darbuotojo
01:30	00:00	RUNNING	30 minučių nustatytas mokymas (atsisiųsti svoriai, atliktas išankstinis apdorojimas ir kt.)
05:30	04:00	RUNNING	4 valandos skirtos mokymui
06:00	04:00	RUNNING	30 minučių vykdyti gauto modelio saugos vertinimai
06:00	04:00	SUCCEEDED	Mokymas baigiamas

Šiuo atveju bendras faktinis laikas yra 6 valandos, bet apmokestinamos tik 4 valandos. Kaina būtų 4 valandos × 100 USD/val. = 400 USD.

Nepavykusios užduoties pavyzdys

Šiame pavyzdyje vykdymas mokomas 2 valandas, įrašo kontrolinį tašką, mokomas dar 1 valandą, bet tada nepavyksta. Apmokestinamos tik 2 mokymo valandos iki kontrolinio taško.

Mokymo laikas	Apmokestintas laikas	Būsena	Aprašas
00:00	00:00	–	Naudotojas sukuria RFT užduotį per API
00:10	00:00	VALIDATING_FILES	10 minučių skirta duomenų rinkiniui tikrinti
00:30	00:00	VALIDATING_FILES	20 minučių vykdyti duomenų rinkinio saugos patikrinimai
01:00	00:00	QUEUED	30 minučių laukta laisvo darbuotojo
01:30	00:00	RUNNING	30 minučių nustatytas mokymas (atsisiųsti svoriai, atliktas išankstinis apdorojimas ir kt.)
03:30	02:00	RUNNING	2 valandos skirtos mokymui
03:30	02:00	RUNNING	Kontrolinis taškas sukurtas 5 veiksme
04:30	02:00	RUNNING	Mokymas nepavyksta dėl vidinės klaidos 8 veiksme (po dar 1 valandos)
04:30	02:00	RUNNING	30 minučių vertintas ir validuotas kontrolinis taškas
04:30	02:00	SUCCEEDED	Užduotis baigiama (su naujausiu kontroliniu tašku)

Nors iš viso mokymui buvo skirtos 3 valandos, tik 2 valandos yra "užfiksuotos" naudojamame kontroliniame taške ir apmokestinamos. Už dėl gedimo prarastą mokymo darbo valandą jūs neatsakote. Kaina būtų 2 valandos × 100 USD/val. = 200 USD.

Dažnai užduodami klausimai

Kada esu apmokestinamas?

Sąskaitą pateikiame, kai jūsų vykdymas baigiamas, pristabdomas, atšaukiamas arba nepavyksta. Kiekviena sąskaita apima darbą, atliktą nuo ankstesnės sąskaitos.

Ar moku, jei vykdymas nepavyksta?

Jei vykdymas nepavyksta dėl mūsų klaidos ir prarandamas bet koks nesenas mokymo darbas, už prarastą dalį neapmokestiname. Jei atšaukiate vykdymą, apmokestiname už darbą iki atšaukimo.

Kaip apmokestinami vertintojų modelio žetonai?

Skaičiuojame žetonus, kuriuos naudoja visi jūsų sukonfigūruoti modelio vertintojai. Pasibaigus mokymui, šiuos žetonus apmokestiname standartiniais tarifais už žetoną.

Ar galiu pristabdyti ir tęsti vykdymą?

Taip. Kai pristabdote, išsaugome kontrolinį tašką ir apmokestiname už iki tol atliktą darbą. Kai tęsiate, būsite apmokestinti tik už papildomą darbą, atliktą po tęsimo.

Jei turite kitų klausimų apie Reinforcement Fine‑Tuning atsiskaitymą, susisiekite su mūsų pagalbos komanda.

Reinforcement Fine Tuning API atsiskaitymo vadovas