Hogyan működik az RFT számlázása
A Reinforcement Fine‑Tuning (RFT) lehetővé teszi, hogy megerősítéses tanulással optimalizálja az OpenAI érvelési modelljeinek teljesítményét. A felügyelt vagy preferenciaalapú finomhangolási ajánlatainkkal ellentétben, amelyeknél a számlázás a tanítási adatkészletben lévő tokenek száma alapján történik, az RFT számlázása azon idő alapján történik, amelyet a tanítási futás az alapvető gépi tanulási munka végzésével tölt.
Ez az útmutató ismerteti, mi számít számlázható tanítási időnek, hogyan kezeljük a szüneteltetéseket és lemondásokat, valamint hogyan befolyásolhatják a konfigurációs beállításai a költségeket.
Díjszabás
Számítás: 100 USD óránként az
o4-mini-2025-04-16esetében az alapvető tanítási ciklusban töltött tényleges időért. A díjak másodpercre arányosítva kerülnek kiszámításra, és a számlán két tizedesjegyre vannak kerekítve (pl. 2,55 óra).Modellalapú osztályozó használata: Ha OpenAI modellt használ a kimenetek „osztályozására” a tanítás során, akkor az ezen osztályozási hívások által felhasznált tokeneket a tanítás befejezése után külön számlázzuk a szokásos API-díjszabásunk szerint.
Csak azért a tanítási munkáért számítunk fel díjat, amely ténylegesen frissíti a modelljét (ezt nevezzük „rögzített előrehaladásnak”).
Mit számlázunk
Azt az időt számlázzuk, amelyet a betanítási worker aktívan a modell betanításával tölt, konkrétan:
Minták generálása a modellből a finomhangolási folyamat során (úgynevezett „rolloutok”)
Ezeknek a kimeneteknek a kiértékelése a feladathoz Ön által definiált egy vagy több értékelővel (további információ az értékelőkről)
Súlyfrissítések kiszámítása és alkalmazása az értékelések alapján (visszaterjesztés).
Az Ön által konfigurált validálási (kiértékelési) lépések futtatása.
A legtöbb értékelő futtatása „ingyenes”, ami azt jelenti, hogy a használatukért nem számítunk fel külön díjat azon az időn felül, amellyel hozzájárulnak az alapvető betanítási ciklushoz. Ez alól kivételt jelentenek a modellértékelők, amelyeknél azokat a tokeneket is összesítjük, amelyeket ezek az értékelők a fenti tevékenységek során felhasználnak. Ezek a tokenek külön tételként jelennek meg a számláján. A modellértékelők által felhasznált tokeneket a normál következtetési díjszabás szerint számlázzuk (OpenAI-árazás).
Miért NEM számlázunk
Nem számítunk fel díjat az alábbiakra fordított időért:
Az adatkészlet validálása vagy vizsgálata a tanítás megkezdése előtt.
Az adatkészlet biztonsági ellenőrzései.
Várakozás a sorban számítási erőforrásokra.
Modellsúlyok vagy adatkészletek letöltése.
Az adatkészlet előkészítése (renderelése) a tanítási formátumunkhoz.
A finomhangolt modell tanítás utáni biztonsági értékelései.
Ha a tanítási munka a mi oldalunkon fellépő hiba miatt vész el (például ha egy munkafolyamat összeomlik, és vissza kell állnia egy korábbi ellenőrzőpontra), az elveszett számítási időért vagy osztályozói tokenekért nem számítunk fel díjat. Erről a következő részben talál további részleteket.
Rögzített előrehaladás és számlázási események
A tanítás a modell számos apró frissítéséből áll. Nyomon követjük, hogy ezek közül hány frissítés fejeződik be sikeresen. A díjak ezekhez a sikeres frissítésekhez kapcsolódó számítási időn és osztályozói tokeneken alapulnak.
Díjat számítunk fel, amikor az alábbi „számlázási események” egyike bekövetkezik:
A tanítás sikeresen befejeződik.
Szünetelteti a tanítást.
Megszakítja a tanítást.
A tanítás meghiúsul.
Minden díj az előző díj óta elvégzett többletmunkát fedezi. Például:
Ha szüneteltet egy futást, mentünk egy ellenőrzőpontot, és kiszámlázzuk az előző díj óta felhasznált számítási időt és osztályozói tokeneket.
Amikor folytatja, a tanítás az ellenőrzőponttól folytatódik. A következő díj (befejezéskor, újabb szüneteltetéskor, megszakításkor vagy meghibásodáskor) csak a folytatás után elvégzett további munkát fogja fedezni.
Ha megszakít egy futást, a megszakításig elvégzett munkát számlázzuk ki.
Ha a tanítás meghiúsul, és az előző díj óta végzett munka elveszik, az elveszett részért nem számlázunk.
Ez a „rögzített előrehaladás” megközelítés biztosítja, hogy csak azért a munkáért fizessen, amely megmarad a modelljében, vagy amelyet szándékosan felad.
Feladat előrehaladásának megtekintése
Az RFT-feladatoknak van egy usage_metrics nevű mezőjük, amely a feladat teljes használatát dokumentálja az aktuális lépésig. Ez magában foglalja a betanításra fordított időt, valamint a feladatban az összes modellértékelő által használt összes tokent. Ez a mező az API-n keresztül (GET /v1/fine_tuning/jobs/{job_id}) vagy a finomhangolási irányítópulton vizsgálható meg.
A tanítási időt befolyásoló tényezők
Mivel a számlázás időalapú, a konfigurációs választásai közvetlenül befolyásolják a költséget. A fő tényezők a következők:
A probléma nehézsége: ha az adatkészlet nehéz problémákból áll, a modell valószínűleg több időt tölt az egyes problémákon való érveléssel, ami növeli az egyes minták előállításához szükséges időt.
Számítási intenzitás: A
compute_multiplierhiperparaméter szabályozza, mennyi számítást végez egy tanítási lépés során. A magasabb értékek arra ösztönzik a modellt, hogy részletesebben érveljen az egyes adatpontokon, ami lassabbá teszi az egyes lépéseket.Validációs beállítások:
A nagyobb validációs halmaz növeli az értékelésre fordított időt.
Az
eval_samplesnövelése (az egy validációs példára osztályozott modellkimenetek száma) növeli a validáció idejét.A gyakoribb validáció futtatása (alacsonyabb
eval_interval) növeli a validációra fordított idő arányát.
Az osztályozók teljesítménye:
A nagyobb vagy nagyobb képességű modellalapú osztályozók több idő alatt adnak vissza értékelést, mint a kisebbek. Például egy érvelési modellel történő osztályozás 10-szer tovább tarthat, mint egy nem érvelési modellel történő osztályozás.
Az összetett Python-osztályozó függvények futtatása tovább tart, mint az egyszerűké.
Ezek a beállítások lehetővé teszik, hogy egyensúlyt teremtsen a költség, a sebesség és a modellminőség között. Például a gyakori validáció korábban felismerheti a problémákat, de növeli a költségeket. Egy fejlettebb modellel végzett osztályozás drasztikusan javíthatja az osztályozás pontosságát, de lelassítja az egyes osztályozási lépéseket, és drágábbá teszi a feladatokat.
Költségkezelés
A költések szabályozásához:
Kezdjen rövidebb futásokkal, hogy megértse, a konfigurációja hogyan hat az időre.
Használjon ésszerű számú validációs példát és
eval_samplesértéket. Ne validáljon gyakrabban, mint amennyire szükség van.Válassza a legkisebb olyan osztályozó modellt, amely megfelel a minőségi követelményeinek.
Tartsa hatékonynak az egyéni Python-osztályozókat.
Állítsa be a
compute_multiplierértékét úgy, hogy egyensúlyban legyen a konvergencia sebessége és a költség.Kövesse nyomon a futást az irányítópulton vagy az API-n keresztül. Bármikor szüneteltetheti vagy megszakíthatja.
Példák
Sikeres betanítási futtatás
| Betanítási idő | Számlázott idő | Állapot | Leírás |
|---|---|---|---|
| 00:00 | 00:00 | – | A felhasználó RFT-feladatot hoz létre API-n keresztül |
| 00:10 | 00:00 | VALIDATING_FILES | 10 perc az adatkészlet validálásával |
| 00:30 | 00:00 | VALIDATING_FILES | 20 perc az adatkészlet biztonsági ellenőrzéseivel |
| 01:00 | 00:00 | QUEUED | 30 perc várakozás egy elérhető workerre |
| 01:30 | 00:00 | RUNNING | 30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.) |
| 05:30 | 04:00 | RUNNING | 4 óra betanítással töltve |
| 06:00 | 04:00 | RUNNING | 30 perc a létrejött modell biztonsági kiértékeléseivel |
| 06:00 | 04:00 | SUCCEEDED | A betanítás befejeződik |
Ebben az esetben a teljes eltelt idő 6 óra, de csak 4 óra számlázható. A költség 4 óra × $100/óra = $400 lenne.
Sikertelen feladat példája
Ebben a példában a futtatás 2 órán át tanít, ellenőrzőpontot ír, még 1 órán át tanít, majd sikertelen lesz. Csak az ellenőrzőpontig tartó 2 óra betanítás számlázható.
| Betanítási idő | Számlázott idő | Állapot | Leírás |
|---|---|---|---|
| 00:00 | 00:00 | – | A felhasználó RFT-feladatot hoz létre API-n keresztül |
| 00:10 | 00:00 | VALIDATING_FILES | 10 perc az adatkészlet validálásával |
| 00:30 | 00:00 | VALIDATING_FILES | 20 perc az adatkészlet biztonsági ellenőrzéseivel |
| 01:00 | 00:00 | QUEUED | 30 perc várakozás egy elérhető workerre |
| 01:30 | 00:00 | RUNNING | 30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.) |
| 03:30 | 02:00 | RUNNING | 2 óra betanítással töltve |
| 03:30 | 02:00 | RUNNING | Ellenőrzőpont létrehozva az 5. lépésnél |
| 04:30 | 02:00 | RUNNING | A betanítás belső hiba miatt sikertelen lesz a 8. lépésnél (további 1 óra után) |
| 04:30 | 02:00 | RUNNING | 30 perc az ellenőrzőpont kiértékelésével és validálásával |
| 04:30 | 02:00 | SUCCEEDED | A feladat befejeződik (a legutóbbi ellenőrzőponttal) |
Bár összesen 3 órát töltöttek betanítással, csak 2 óra van "rögzítve" használható ellenőrzőpontban, és ez kerül számlázásra. A hiba miatt elveszett egyórányi betanítási munka nem az Ön felelőssége. A költség 2 óra × $100/óra = $200 lenne.
Gyakran ismételt kérdések
Mikor történik a terhelés?
A számlázás akkor történik, amikor a futtatás befejeződik, szünetel, megszakítják vagy sikertelen. Minden számla az előző számla óta elvégzett munkát fedezi.
Fizetek, ha egy futtatás sikertelen?
Ha egy futtatás a mi hibánk miatt sikertelen, és a közelmúltbeli betanítási munka egy része elveszik, az elveszett részért nem számítunk fel díjat. Ha megszakít egy futtatást, a megszakításig elvégzett munkáért számítunk fel díjat.
Hogyan számlázzuk az értékelő modellek tokenjeit?
Számoljuk az Ön által konfigurált modellértékelők által használt tokeneket. A betanítás befejezése után ezeket a tokeneket a szokásos tokenenkénti díjszabásunk szerint számlázzuk.
Szüneteltethetek és folytathatok egy futtatást?
Igen. Szüneteltetéskor elmentünk egy ellenőrzőpontot, és díjat számítunk fel az addig elvégzett munkáért. Folytatáskor csak a folytatás után elvégzett további munkáért számítunk fel díjat.
Ha további kérdései vannak a Reinforcement Fine‑Tuning számlázásával kapcsolatban, forduljon támogatási csapatunkhoz.
