OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Számlázási útmutató a Reinforcement Fine-Tuning API-hoz

Hogyan működik az RFT API számlázása

Frissítve: 5 hours ago

Hogyan működik az RFT számlázása

A Reinforcement Fine‑Tuning (RFT) lehetővé teszi, hogy megerősítéses tanulással optimalizálja az OpenAI érvelési modelljeinek teljesítményét. A felügyelt vagy preferenciaalapú finomhangolási ajánlatainkkal ellentétben, amelyeknél a számlázás a tanítási adatkészletben lévő tokenek száma alapján történik, az RFT számlázása azon idő alapján történik, amelyet a tanítási futás az alapvető gépi tanulási munka végzésével tölt.

Ez az útmutató ismerteti, mi számít számlázható tanítási időnek, hogyan kezeljük a szüneteltetéseket és lemondásokat, valamint hogyan befolyásolhatják a konfigurációs beállításai a költségeket.

Díjszabás

  • Számítás: 100 USD óránként az o4-mini-2025-04-16 esetében az alapvető tanítási ciklusban töltött tényleges időért. A díjak másodpercre arányosítva kerülnek kiszámításra, és a számlán két tizedesjegyre vannak kerekítve (pl. 2,55 óra).

  • Modellalapú osztályozó használata: Ha OpenAI modellt használ a kimenetek „osztályozására” a tanítás során, akkor az ezen osztályozási hívások által felhasznált tokeneket a tanítás befejezése után külön számlázzuk a szokásos API-díjszabásunk szerint.

Csak azért a tanítási munkáért számítunk fel díjat, amely ténylegesen frissíti a modelljét (ezt nevezzük „rögzített előrehaladásnak”).

Mit számlázunk

Azt az időt számlázzuk, amelyet a betanítási worker aktívan a modell betanításával tölt, konkrétan:

  • Minták generálása a modellből a finomhangolási folyamat során (úgynevezett „rolloutok”)

  • Ezeknek a kimeneteknek a kiértékelése a feladathoz Ön által definiált egy vagy több értékelővel (további információ az értékelőkről)

  • Súlyfrissítések kiszámítása és alkalmazása az értékelések alapján (visszaterjesztés).

  • Az Ön által konfigurált validálási (kiértékelési) lépések futtatása.

A legtöbb értékelő futtatása „ingyenes”, ami azt jelenti, hogy a használatukért nem számítunk fel külön díjat azon az időn felül, amellyel hozzájárulnak az alapvető betanítási ciklushoz. Ez alól kivételt jelentenek a modellértékelők, amelyeknél azokat a tokeneket is összesítjük, amelyeket ezek az értékelők a fenti tevékenységek során felhasználnak. Ezek a tokenek külön tételként jelennek meg a számláján. A modellértékelők által felhasznált tokeneket a normál következtetési díjszabás szerint számlázzuk (OpenAI-árazás).

Miért NEM számlázunk

Nem számítunk fel díjat az alábbiakra fordított időért:

  • Az adatkészlet validálása vagy vizsgálata a tanítás megkezdése előtt.

  • Az adatkészlet biztonsági ellenőrzései.

  • Várakozás a sorban számítási erőforrásokra.

  • Modellsúlyok vagy adatkészletek letöltése.

  • Az adatkészlet előkészítése (renderelése) a tanítási formátumunkhoz.

  • A finomhangolt modell tanítás utáni biztonsági értékelései.

Ha a tanítási munka a mi oldalunkon fellépő hiba miatt vész el (például ha egy munkafolyamat összeomlik, és vissza kell állnia egy korábbi ellenőrzőpontra), az elveszett számítási időért vagy osztályozói tokenekért nem számítunk fel díjat. Erről a következő részben talál további részleteket.

Rögzített előrehaladás és számlázási események

A tanítás a modell számos apró frissítéséből áll. Nyomon követjük, hogy ezek közül hány frissítés fejeződik be sikeresen. A díjak ezekhez a sikeres frissítésekhez kapcsolódó számítási időn és osztályozói tokeneken alapulnak.

Díjat számítunk fel, amikor az alábbi „számlázási események” egyike bekövetkezik:

  • A tanítás sikeresen befejeződik.

  • Szünetelteti a tanítást.

  • Megszakítja a tanítást.

  • A tanítás meghiúsul.

Minden díj az előző díj óta elvégzett többletmunkát fedezi. Például:

  • Ha szüneteltet egy futást, mentünk egy ellenőrzőpontot, és kiszámlázzuk az előző díj óta felhasznált számítási időt és osztályozói tokeneket.

  • Amikor folytatja, a tanítás az ellenőrzőponttól folytatódik. A következő díj (befejezéskor, újabb szüneteltetéskor, megszakításkor vagy meghibásodáskor) csak a folytatás után elvégzett további munkát fogja fedezni.

  • Ha megszakít egy futást, a megszakításig elvégzett munkát számlázzuk ki.

  • Ha a tanítás meghiúsul, és az előző díj óta végzett munka elveszik, az elveszett részért nem számlázunk.

Ez a „rögzített előrehaladás” megközelítés biztosítja, hogy csak azért a munkáért fizessen, amely megmarad a modelljében, vagy amelyet szándékosan felad.

Feladat előrehaladásának megtekintése

Az RFT-feladatoknak van egy usage_metrics nevű mezőjük, amely a feladat teljes használatát dokumentálja az aktuális lépésig. Ez magában foglalja a betanításra fordított időt, valamint a feladatban az összes modellértékelő által használt összes tokent. Ez a mező az API-n keresztül (GET /v1/fine_tuning/jobs/{job_id}) vagy a finomhangolási irányítópulton vizsgálható meg.

A tanítási időt befolyásoló tényezők

Mivel a számlázás időalapú, a konfigurációs választásai közvetlenül befolyásolják a költséget. A fő tényezők a következők:

  • A probléma nehézsége: ha az adatkészlet nehéz problémákból áll, a modell valószínűleg több időt tölt az egyes problémákon való érveléssel, ami növeli az egyes minták előállításához szükséges időt.

  • Számítási intenzitás: A compute_multiplier hiperparaméter szabályozza, mennyi számítást végez egy tanítási lépés során. A magasabb értékek arra ösztönzik a modellt, hogy részletesebben érveljen az egyes adatpontokon, ami lassabbá teszi az egyes lépéseket.

  • Validációs beállítások:

    • A nagyobb validációs halmaz növeli az értékelésre fordított időt.

    • Az eval_samples növelése (az egy validációs példára osztályozott modellkimenetek száma) növeli a validáció idejét.

    • A gyakoribb validáció futtatása (alacsonyabb eval_interval) növeli a validációra fordított idő arányát.

  • Az osztályozók teljesítménye:

    • A nagyobb vagy nagyobb képességű modellalapú osztályozók több idő alatt adnak vissza értékelést, mint a kisebbek. Például egy érvelési modellel történő osztályozás 10-szer tovább tarthat, mint egy nem érvelési modellel történő osztályozás.

    • Az összetett Python-osztályozó függvények futtatása tovább tart, mint az egyszerűké.

Ezek a beállítások lehetővé teszik, hogy egyensúlyt teremtsen a költség, a sebesség és a modellminőség között. Például a gyakori validáció korábban felismerheti a problémákat, de növeli a költségeket. Egy fejlettebb modellel végzett osztályozás drasztikusan javíthatja az osztályozás pontosságát, de lelassítja az egyes osztályozási lépéseket, és drágábbá teszi a feladatokat.

Költségkezelés

A költések szabályozásához:

  • Kezdjen rövidebb futásokkal, hogy megértse, a konfigurációja hogyan hat az időre.

  • Használjon ésszerű számú validációs példát és eval_samples értéket. Ne validáljon gyakrabban, mint amennyire szükség van.

  • Válassza a legkisebb olyan osztályozó modellt, amely megfelel a minőségi követelményeinek.

  • Tartsa hatékonynak az egyéni Python-osztályozókat.

  • Állítsa be a compute_multiplier értékét úgy, hogy egyensúlyban legyen a konvergencia sebessége és a költség.

  • Kövesse nyomon a futást az irányítópulton vagy az API-n keresztül. Bármikor szüneteltetheti vagy megszakíthatja.

Példák

Sikeres betanítási futtatás

Betanítási időSzámlázott időÁllapotLeírás
00:0000:00A felhasználó RFT-feladatot hoz létre API-n keresztül
00:1000:00VALIDATING_FILES10 perc az adatkészlet validálásával
00:3000:00VALIDATING_FILES20 perc az adatkészlet biztonsági ellenőrzéseivel
01:0000:00QUEUED30 perc várakozás egy elérhető workerre
01:3000:00RUNNING30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.)
05:3004:00RUNNING4 óra betanítással töltve
06:0004:00RUNNING30 perc a létrejött modell biztonsági kiértékeléseivel
06:0004:00SUCCEEDEDA betanítás befejeződik

Ebben az esetben a teljes eltelt idő 6 óra, de csak 4 óra számlázható. A költség 4 óra × $100/óra = $400 lenne.

Sikertelen feladat példája

Ebben a példában a futtatás 2 órán át tanít, ellenőrzőpontot ír, még 1 órán át tanít, majd sikertelen lesz. Csak az ellenőrzőpontig tartó 2 óra betanítás számlázható.

Betanítási időSzámlázott időÁllapotLeírás
00:0000:00A felhasználó RFT-feladatot hoz létre API-n keresztül
00:1000:00VALIDATING_FILES10 perc az adatkészlet validálásával
00:3000:00VALIDATING_FILES20 perc az adatkészlet biztonsági ellenőrzéseivel
01:0000:00QUEUED30 perc várakozás egy elérhető workerre
01:3000:00RUNNING30 perc a betanítás előkészítésével (súlyok letöltése, előfeldolgozás stb.)
03:3002:00RUNNING2 óra betanítással töltve
03:3002:00RUNNINGEllenőrzőpont létrehozva az 5. lépésnél
04:3002:00RUNNINGA betanítás belső hiba miatt sikertelen lesz a 8. lépésnél (további 1 óra után)
04:3002:00RUNNING30 perc az ellenőrzőpont kiértékelésével és validálásával
04:3002:00SUCCEEDEDA feladat befejeződik (a legutóbbi ellenőrzőponttal)

Bár összesen 3 órát töltöttek betanítással, csak 2 óra van "rögzítve" használható ellenőrzőpontban, és ez kerül számlázásra. A hiba miatt elveszett egyórányi betanítási munka nem az Ön felelőssége. A költség 2 óra × $100/óra = $200 lenne.

Gyakran ismételt kérdések

Mikor történik a terhelés?

A számlázás akkor történik, amikor a futtatás befejeződik, szünetel, megszakítják vagy sikertelen. Minden számla az előző számla óta elvégzett munkát fedezi.

Fizetek, ha egy futtatás sikertelen?

Ha egy futtatás a mi hibánk miatt sikertelen, és a közelmúltbeli betanítási munka egy része elveszik, az elveszett részért nem számítunk fel díjat. Ha megszakít egy futtatást, a megszakításig elvégzett munkáért számítunk fel díjat.

Hogyan számlázzuk az értékelő modellek tokenjeit?

Számoljuk az Ön által konfigurált modellértékelők által használt tokeneket. A betanítás befejezése után ezeket a tokeneket a szokásos tokenenkénti díjszabásunk szerint számlázzuk.

Szüneteltethetek és folytathatok egy futtatást?

Igen. Szüneteltetéskor elmentünk egy ellenőrzőpontot, és díjat számítunk fel az addig elvégzett munkáért. Folytatáskor csak a folytatás után elvégzett további munkáért számítunk fel díjat.

Ha további kérdései vannak a Reinforcement Fine‑Tuning számlázásával kapcsolatban, forduljon támogatási csapatunkhoz.

Hasznos volt ez a cikk?