Az RFT számlázásának működése

A Reinforcement Fine‑Tuning (RFT) lehetővé teszi, hogy megerősítéses tanulással optimalizáld az OpenAI érvelési modelljeinek teljesítményét. A felügyelt vagy preferenciaalapú finomhangolási ajánlatainktól eltérően, amelyeket a betanítási adatkészletben lévő tokenek száma alapján számlázunk, az RFT számlázása azon az időn alapul, amelyet a betanítási futtatás az alapvető gépi tanulási munkával tölt.

Ez az útmutató ismerteti, mi számít számlázható tanítási időnek, hogyan kezeljük a szüneteltetéseket és lemondásokat, valamint hogyan befolyásolhatják a konfigurációs beállításai a költségeket.

Díjszabás

Számítás: 100 USD óránként az o4-mini-2025-04-16 esetében az alapvető tanítási ciklusban töltött tényleges időért. A díjak másodpercre arányosítva kerülnek kiszámításra, és a számlán két tizedesjegyre vannak kerekítve (pl. 2,55 óra).
Modellalapú osztályozó használata: Ha OpenAI modellt használ a kimenetek „osztályozására” a tanítás során, akkor az ezen osztályozási hívások által felhasznált tokeneket a tanítás befejezése után külön számlázzuk a szokásos API-díjszabásunk szerint.

Csak azért a tanítási munkáért számítunk fel díjat, amely ténylegesen frissíti a modelljét (ezt nevezzük „rögzített előrehaladásnak”).

Mit számlázunk

Azt az időt számlázzuk, amelyet a betanítási worker aktívan a modell betanításával tölt, konkrétan:

Minták generálása a modellből a finomhangolási folyamat során (úgynevezett „rolloutok”)
Ezeknek a kimeneteknek a kiértékelése a feladathoz Ön által definiált egy vagy több értékelővel (további információ az értékelőkről)
Súlyfrissítések kiszámítása és alkalmazása az értékelések alapján (visszaterjesztés).
Az Ön által konfigurált validálási (kiértékelési) lépések futtatása.

A legtöbb értékelő futtatása „ingyenes”, ami azt jelenti, hogy a használatukért nem számítunk fel külön díjat azon az időn felül, amellyel hozzájárulnak az alapvető betanítási ciklushoz. Ez alól kivételt jelentenek a modellértékelők, amelyeknél azokat a tokeneket is összesítjük, amelyeket ezek az értékelők a fenti tevékenységek során felhasználnak. Ezek a tokenek külön tételként jelennek meg a számláján. A modellértékelők által felhasznált tokeneket a normál következtetési díjszabás szerint számlázzuk (OpenAI-árazás).

Miért NEM számlázunk

Nem számítunk fel díjat az alábbiakra fordított időért:

Az adatkészlet validálása vagy vizsgálata a tanítás megkezdése előtt.
Az adatkészlet biztonsági ellenőrzései.
Várakozás a sorban számítási erőforrásokra.
Modellsúlyok vagy adatkészletek letöltése.
Az adatkészlet előkészítése (renderelése) a tanítási formátumunkhoz.
A finomhangolt modell tanítás utáni biztonsági értékelései.

Ha a tanítási munka a mi oldalunkon fellépő hiba miatt vész el (például ha egy munkafolyamat összeomlik, és vissza kell állnia egy korábbi ellenőrzőpontra), az elveszett számítási időért vagy osztályozói tokenekért nem számítunk fel díjat. Erről a következő részben talál további részleteket.

Rögzített előrehaladás és számlázási események

A tanítás a modell számos apró frissítéséből áll. Nyomon követjük, hogy ezek közül hány frissítés fejeződik be sikeresen. A díjak ezekhez a sikeres frissítésekhez kapcsolódó számítási időn és osztályozói tokeneken alapulnak.

Díjat számítunk fel, amikor az alábbi „számlázási események” egyike bekövetkezik:

A tanítás sikeresen befejeződik.
Szünetelteti a tanítást.
Megszakítja a tanítást.
A tanítás meghiúsul.

Minden díj az előző díj óta elvégzett többletmunkát fedezi. Például:

Ha szüneteltet egy futást, mentünk egy ellenőrzőpontot, és kiszámlázzuk az előző díj óta felhasznált számítási időt és osztályozói tokeneket.
Amikor folytatja, a tanítás az ellenőrzőponttól folytatódik. A következő díj (befejezéskor, újabb szüneteltetéskor, megszakításkor vagy meghibásodáskor) csak a folytatás után elvégzett további munkát fogja fedezni.
Ha megszakít egy futást, a megszakításig elvégzett munkát számlázzuk ki.
Ha a tanítás meghiúsul, és az előző díj óta végzett munka elveszik, az elveszett részért nem számlázunk.

Ez a „rögzített előrehaladás” megközelítés biztosítja, hogy csak azért a munkáért fizessen, amely megmarad a modelljében, vagy amelyet szándékosan felad.

Feladat előrehaladásának megtekintése

Az RFT-feladatoknak van egy usage_metrics nevű mezőjük, amely a feladat teljes használatát dokumentálja az aktuális lépésig. Ez magában foglalja a betanításra fordított időt, valamint a feladatban az összes modellértékelő által használt összes tokent. Ez a mező az API-n keresztül (GET /v1/fine_tuning/jobs/{job_id}) vagy a finomhangolási irányítópulton vizsgálható meg.

A tanítási időt befolyásoló tényezők

Mivel a számlázás időalapú, a konfigurációs választásai közvetlenül befolyásolják a költséget. A fő tényezők a következők:

A probléma nehézsége: ha az adatkészlet nehéz problémákból áll, a modell valószínűleg több időt tölt az egyes problémákon való érveléssel, ami növeli az egyes minták előállításához szükséges időt.
Számítási intenzitás: A compute_multiplier hiperparaméter szabályozza, mennyi számítást végez egy tanítási lépés során. A magasabb értékek arra ösztönzik a modellt, hogy részletesebben érveljen az egyes adatpontokon, ami lassabbá teszi az egyes lépéseket.
Validációs beállítások:
- A nagyobb validációs halmaz növeli az értékelésre fordított időt.
- Az eval_samples növelése (az egy validációs példára osztályozott modellkimenetek száma) növeli a validáció idejét.
- A gyakoribb validáció futtatása (alacsonyabb eval_interval) növeli a validációra fordított idő arányát.
Az osztályozók teljesítménye:
- A nagyobb vagy nagyobb képességű modellalapú osztályozók több idő alatt adnak vissza értékelést, mint a kisebbek. Például egy érvelési modellel történő osztályozás 10-szer tovább tarthat, mint egy nem érvelési modellel történő osztályozás.
- Az összetett Python-osztályozó függvények futtatása tovább tart, mint az egyszerűké.

Ezek a beállítások lehetővé teszik, hogy egyensúlyt teremtsen a költség, a sebesség és a modellminőség között. Például a gyakori validáció korábban felismerheti a problémákat, de növeli a költségeket. Egy fejlettebb modellel végzett osztályozás drasztikusan javíthatja az osztályozás pontosságát, de lelassítja az egyes osztályozási lépéseket, és drágábbá teszi a feladatokat.

Költségkezelés

A költések szabályozásához:

Kezdjen rövidebb futásokkal, hogy megértse, a konfigurációja hogyan hat az időre.
Használjon ésszerű számú validációs példát és eval_samples értéket. Ne validáljon gyakrabban, mint amennyire szükség van.
Válassza a legkisebb olyan osztályozó modellt, amely megfelel a minőségi követelményeinek.
Tartsa hatékonynak az egyéni Python-osztályozókat.
Állítsa be a compute_multiplier értékét úgy, hogy egyensúlyban legyen a konvergencia sebessége és a költség.
Kövesse nyomon a futást az irányítópulton vagy az API-n keresztül. Bármikor szüneteltetheti vagy megszakíthatja.

Példák

Sikeres betanítási futtatás

Betanítási idő	Számlázott idő	Állapot	Leírás
00:00	00:00	–	A felhasználó RFT-feladatot hoz létre API-n keresztül
00:10	00:00	VALIDATING_FILES	10 perc az adatkészlet validálásával
00:30	00:00	VALIDATING_FILES	20 perc az adatkészlet biztonsági ellenőrzéseivel
01:00	00:00	QUEUED	30 perc várakozás egy elérhető workerre
01:30	00:00	RUNNING	30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.)
05:30	04:00	RUNNING	4 óra betanítással töltve
06:00	04:00	RUNNING	30 perc a létrejött modell biztonsági kiértékeléseivel
06:00	04:00	SUCCEEDED	A betanítás befejeződik

Ebben az esetben a teljes eltelt idő 6 óra, de csak 4 óra számlázható. A költség 4 óra × $100/óra = $400 lenne.

Sikertelen feladat példája

Ebben a példában a futtatás 2 órán át tanít, ellenőrzőpontot ír, még 1 órán át tanít, majd sikertelen lesz. Csak az ellenőrzőpontig tartó 2 óra betanítás számlázható.

Betanítási idő	Számlázott idő	Állapot	Leírás
00:00	00:00	–	A felhasználó RFT-feladatot hoz létre API-n keresztül
00:10	00:00	VALIDATING_FILES	10 perc az adatkészlet validálásával
00:30	00:00	VALIDATING_FILES	20 perc az adatkészlet biztonsági ellenőrzéseivel
01:00	00:00	QUEUED	30 perc várakozás egy elérhető workerre
01:30	00:00	RUNNING	30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.)
03:30	02:00	RUNNING	2 óra betanítással töltve
03:30	02:00	RUNNING	Ellenőrzőpont létrehozva az 5. lépésnél
04:30	02:00	RUNNING	A betanítás belső hiba miatt sikertelen lesz a 8. lépésnél (további 1 óra után)
04:30	02:00	RUNNING	30 perc az ellenőrzőpont kiértékelésével és validálásával
04:30	02:00	SUCCEEDED	A feladat befejeződik (a legutóbbi ellenőrzőponttal)

Bár összesen 3 órát töltöttek betanítással, csak 2 óra van "rögzítve" használható ellenőrzőpontban, és ez kerül számlázásra. A hiba miatt elveszett egyórányi betanítási munka nem az Ön felelőssége. A költség 2 óra × $100/óra = $200 lenne.

Gyakran ismételt kérdések

Mikor történik a terhelés?

A számlázás akkor történik, amikor a futtatás befejeződik, szünetel, megszakítják vagy sikertelen. Minden számla az előző számla óta elvégzett munkát fedezi.

Fizetek, ha egy futtatás sikertelen?

Ha egy futtatás a mi hibánk miatt sikertelen, és a közelmúltbeli betanítási munka egy része elveszik, az elveszett részért nem számítunk fel díjat. Ha megszakít egy futtatást, a megszakításig elvégzett munkáért számítunk fel díjat.

Hogyan számlázzuk az értékelő modellek tokenjeit?

Számoljuk az Ön által konfigurált modellértékelők által használt tokeneket. A betanítás befejezése után ezeket a tokeneket a szokásos tokenenkénti díjszabásunk szerint számlázzuk.

Szüneteltethetek és folytathatok egy futtatást?

Igen. Szüneteltetéskor elmentünk egy ellenőrzőpontot, és díjat számítunk fel az addig elvégzett munkáért. Folytatáskor csak a folytatás után elvégzett további munkáért számítunk fel díjat.

Ha további kérdései vannak a Reinforcement Fine‑Tuning számlázásával kapcsolatban, forduljon támogatási csapatunkhoz.

Számlázási útmutató a Reinforcement Fine-Tuning API-hoz