Hogyan működik az RFT számlázása
A Reinforcement Fine‑Tuning (RFT) lehetővé teszi, hogy megerősítéses tanulással optimalizálja az OpenAI érvelési modelljeinek teljesítményét. A felügyelt vagy preferenciaalapú finomhangolási ajánlatainkkal ellentétben, amelyeknél a számlázás a tanítási adatkészletben lévő tokenek száma alapján történik, az RFT számlázása azon idő alapján történik, amelyet a tanítási futás az alapvető gépi tanulási munka végzésével tölt.
Ez az útmutató ismerteti, mi számít számlázható tanítási időnek, hogyan kezeljük a szüneteltetéseket és lemondásokat, valamint hogyan befolyásolhatják a konfigurációs beállításai a költségeket.
Díjszabás
Számítás: 100 USD óránként az
o4-mini-2025-04-16esetében az alapvető tanítási ciklusban töltött tényleges időért. A díjak másodpercre arányosítva kerülnek kiszámításra, és a számlán két tizedesjegyre vannak kerekítve (pl. 2,55 óra).Modellalapú osztályozó használata: Ha OpenAI modellt használ a kimenetek „osztályozására” a tanítás során, akkor az ezen osztályozási hívások által felhasznált tokeneket a tanítás befejezése után külön számlázzuk a szokásos API-díjszabásunk szerint.
Csak azért a tanítási munkáért számítunk fel díjat, amely ténylegesen frissíti a modelljét (ezt nevezzük „rögzített előrehaladásnak”).
Miért számlázunk
Azért az időért számlázunk, amelyet a tanítási munkafolyamat aktívan a modell tanításával tölt, konkrétan:
Minták előállítása a modellből a finomhangolási folyamat során (ezeket „rolloutoknak” nevezzük)
Ezeknek a kimeneteknek az értékelése egy vagy több, a feladaton Ön által meghatározott osztályozóval (további információ az osztályozókról)
A súlyfrissítések kiszámítása és alkalmazása az osztályzatok alapján (backpropagation).
Az Ön által konfigurált validációs (értékelési) lépések futtatása.
A legtöbb osztályozó futtatása „ingyenes”, ami azt jelenti, hogy használatukért nem számítunk fel külön díjat azon az időn felül, amellyel hozzájárulnak az alapvető tanítási ciklushoz. Kivételt képeznek a modellalapú osztályozók, amelyeknél az előbbi tevékenységek során felhasznált tokeneket is összesítjük. Ezek a tokenek külön tételként jelennek meg a számlán. A modellalapú osztályozók által felhasznált tokenek számlázása normál következtetési díjszabás szerint történik (OpenAI díjszabás).
Miért NEM számlázunk
Nem számítunk fel díjat az alábbiakra fordított időért:
Az adatkészlet validálása vagy vizsgálata a tanítás megkezdése előtt.
Az adatkészlet biztonsági ellenőrzései.
Várakozás a sorban számítási erőforrásokra.
Modellsúlyok vagy adatkészletek letöltése.
Az adatkészlet előkészítése (renderelése) a tanítási formátumunkhoz.
A finomhangolt modell tanítás utáni biztonsági értékelései.
Ha a tanítási munka a mi oldalunkon fellépő hiba miatt vész el (például ha egy munkafolyamat összeomlik, és vissza kell állnia egy korábbi ellenőrzőpontra), az elveszett számítási időért vagy osztályozói tokenekért nem számítunk fel díjat. Erről a következő részben talál további részleteket.
Rögzített előrehaladás és számlázási események
A tanítás a modell számos apró frissítéséből áll. Nyomon követjük, hogy ezek közül hány frissítés fejeződik be sikeresen. A díjak ezekhez a sikeres frissítésekhez kapcsolódó számítási időn és osztályozói tokeneken alapulnak.
Díjat számítunk fel, amikor az alábbi „számlázási események” egyike bekövetkezik:
A tanítás sikeresen befejeződik.
Szünetelteti a tanítást.
Megszakítja a tanítást.
A tanítás meghiúsul.
Minden díj az előző díj óta elvégzett többletmunkát fedezi. Például:
Ha szüneteltet egy futást, mentünk egy ellenőrzőpontot, és kiszámlázzuk az előző díj óta felhasznált számítási időt és osztályozói tokeneket.
Amikor folytatja, a tanítás az ellenőrzőponttól folytatódik. A következő díj (befejezéskor, újabb szüneteltetéskor, megszakításkor vagy meghibásodáskor) csak a folytatás után elvégzett további munkát fogja fedezni.
Ha megszakít egy futást, a megszakításig elvégzett munkát számlázzuk ki.
Ha a tanítás meghiúsul, és az előző díj óta végzett munka elveszik, az elveszett részért nem számlázunk.
Ez a „rögzített előrehaladás” megközelítés biztosítja, hogy csak azért a munkáért fizessen, amely megmarad a modelljében, vagy amelyet szándékosan felad.
A feladat előrehaladásának megtekintése
Az RFT-feladatok rendelkeznek egy usage_metrics nevű mezővel, amely a feladat aktuális lépésig összesített használatát dokumentálja. Ez magában foglalja a tanítással töltött időt és a feladat összes modellalapú osztályozója által felhasznált összes tokent. Ez a mező az API-n keresztül (GET /v1/fine_tuning/jobs/{job_id}) vagy a finomhangolási irányítópulton tekinthető meg.
A tanítási időt befolyásoló tényezők
Mivel a számlázás időalapú, a konfigurációs választásai közvetlenül befolyásolják a költséget. A fő tényezők a következők:
A probléma nehézsége: ha az adatkészlet nehéz problémákból áll, a modell valószínűleg több időt tölt az egyes problémákon való érveléssel, ami növeli az egyes minták előállításához szükséges időt.
Számítási intenzitás: A
compute_multiplierhiperparaméter szabályozza, mennyi számítást végez egy tanítási lépés során. A magasabb értékek arra ösztönzik a modellt, hogy részletesebben érveljen az egyes adatpontokon, ami lassabbá teszi az egyes lépéseket.Validációs beállítások:
A nagyobb validációs halmaz növeli az értékelésre fordított időt.
Az
eval_samplesnövelése (az egy validációs példára osztályozott modellkimenetek száma) növeli a validáció idejét.A gyakoribb validáció futtatása (alacsonyabb
eval_interval) növeli a validációra fordított idő arányát.
Az osztályozók teljesítménye:
A nagyobb vagy nagyobb képességű modellalapú osztályozók több idő alatt adnak vissza értékelést, mint a kisebbek. Például egy érvelési modellel történő osztályozás 10-szer tovább tarthat, mint egy nem érvelési modellel történő osztályozás.
Az összetett Python-osztályozó függvények futtatása tovább tart, mint az egyszerűké.
Ezek a beállítások lehetővé teszik, hogy egyensúlyt teremtsen a költség, a sebesség és a modellminőség között. Például a gyakori validáció korábban felismerheti a problémákat, de növeli a költségeket. Egy fejlettebb modellel végzett osztályozás drasztikusan javíthatja az osztályozás pontosságát, de lelassítja az egyes osztályozási lépéseket, és drágábbá teszi a feladatokat.
Költségkezelés
A költések szabályozásához:
Kezdjen rövidebb futásokkal, hogy megértse, a konfigurációja hogyan hat az időre.
Használjon ésszerű számú validációs példát és
eval_samplesértéket. Ne validáljon gyakrabban, mint amennyire szükség van.Válassza a legkisebb olyan osztályozó modellt, amely megfelel a minőségi követelményeinek.
Tartsa hatékonynak az egyéni Python-osztályozókat.
Állítsa be a
compute_multiplierértékét úgy, hogy egyensúlyban legyen a konvergencia sebessége és a költség.Kövesse nyomon a futást az irányítópulton vagy az API-n keresztül. Bármikor szüneteltetheti vagy megszakíthatja.
Példák
Sikeres tanítási futás
| Tanítási idő | Számlázott idő | Állapot | Leírás |
| 00 : 00 | 00 : 00 | – | A felhasználó API-n keresztül létrehoz egy RFT-feladatot |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 perc az adatkészlet validálásával |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 perc az adatkészlet biztonsági ellenőrzéseinek futtatásával |
| 01 : 00 | 00 : 00 | QUEUED | 30 perc várakozás elérhető munkafolyamatra |
| 01 : 30 | 00 : 00 | RUNNING | 30 perc a tanítás beállításával (súlyok letöltése, előfeldolgozás stb.) |
| 05 : 30 | 04 : 00 | RUNNING | 4 óra tanítással töltve |
| 06 : 00 | 04 : 00 | RUNNING | 30 perc az elkészült modell biztonsági értékeléseinek futtatásával |
| 06 : 00 | 04 : 00 | SUCCEEDED | A tanítás befejeződik |
Ebben az esetben a teljes eltelt idő 6 óra, de ebből csak 4 óra számlázható. A költség 4 óra × 100 $/óra = 400 $.
Példa sikertelen feladatra
Ebben a példában a futás 2 órán át tanít, létrehoz egy ellenőrzőpontot, további 1 órán át tanít, majd meghiúsul. Csak az ellenőrzőpontig tartó 2 óra tanítás számlázható.
| Tanítási idő | Számlázott idő | Állapot | Leírás |
| 00 : 00 | 00 : 00 | – | A felhasználó API-n keresztül létrehoz egy RFT-feladatot |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 perc az adatkészlet validálásával |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 perc az adatkészlet biztonsági ellenőrzéseinek futtatásával |
| 01 : 00 | 00 : 00 | QUEUED | 30 perc várakozás elérhető munkafolyamatra |
| 01 : 30 | 00 : 00 | RUNNING | 30 perc a tanítás beállításával (súlyok letöltése, előfeldolgozás stb.) |
| 03 : 30 | 02 : 00 | RUNNING | 2 óra tanítással töltve |
| 03 : 30 | 02 : 00 | RUNNING | Ellenőrzőpont létrehozva az 5. lépésnél |
| 04 : 30 | 02 : 00 | RUNNING | A tanítás belső hiba miatt meghiúsul a 8. lépésnél (további 1 óra után) |
| 04 : 30 | 02 : 00 | RUNNING | 30 perc az ellenőrzőpont értékelésével és validálásával |
| 04 : 30 | 02 : 00 | SUCCEEDED | A feladat befejeződik (a legutóbbi ellenőrzőponttal) |
Annak ellenére, hogy összesen 3 órát töltöttek tanítással, csak 2 óra van „rögzítve” egy használható ellenőrzőpontban, ezért ez számlázható. A hiba miatt elveszett 1 óra tanítási munka nem az Ön felelőssége. A költség 2 óra × 100 $/óra = 200 $.
Gyakran ismételt kérdések
Mikor számítunk fel díjat?
Akkor számlázunk, amikor a futás befejeződik, szünetel, megszakítják vagy meghiúsul. Minden számla az előző számla óta elvégzett munkát fedezi.
Kell fizetnem, ha egy futás meghiúsul?
Ha egy futás a mi hibánk miatt hiúsul meg, és a közelmúltbeli tanítási munka egy része elveszik, az elveszett részért nem számítunk fel díjat. Ha megszakít egy futást, a megszakításig elvégzett munkáért számítunk fel díjat.
Hogyan számlázzák az osztályozó modellek tokenjeit?
Összeszámoljuk az Ön által konfigurált összes modellalapú osztályozó által használt tokeneket. A tanítás befejezése után ezeket a tokeneket a szokásos tokenenkénti díjszabásunk szerint számlázzuk.
Szüneteltethetek és folytathatok egy futást?
Igen. Amikor szüneteltet, mentünk egy ellenőrzőpontot, és kiszámlázzuk az addig elvégzett munkát. Amikor folytatja, csak a folytatás után elvégzett további munkáért számítunk fel díjat.
Ha további kérdése van a Reinforcement Fine‑Tuning számlázásával kapcsolatban, lépjen kapcsolatba ügyfélszolgálatunkkal.
