OpenAI
Ez az oldal gépi fordítással készült. Tekintsd meg az eredeti angol nyelvű cikket.

Számlázási útmutató a Reinforcement Fine-Tuning API-hoz

Hogyan működik az RFT API számlázása

Frissítve: 14 days ago

Hogyan működik az RFT számlázása

A Reinforcement Fine‑Tuning (RFT) lehetővé teszi, hogy megerősítéses tanulással optimalizálja az OpenAI érvelési modelljeinek teljesítményét. A felügyelt vagy preferenciaalapú finomhangolási ajánlatainkkal ellentétben, amelyeknél a számlázás a tanítási adatkészletben lévő tokenek száma alapján történik, az RFT számlázása azon idő alapján történik, amelyet a tanítási futás az alapvető gépi tanulási munka végzésével tölt.

Ez az útmutató ismerteti, mi számít számlázható tanítási időnek, hogyan kezeljük a szüneteltetéseket és lemondásokat, valamint hogyan befolyásolhatják a konfigurációs beállításai a költségeket.

Díjszabás

  • Számítás: 100 USD óránként az o4-mini-2025-04-16 esetében az alapvető tanítási ciklusban töltött tényleges időért. A díjak másodpercre arányosítva kerülnek kiszámításra, és a számlán két tizedesjegyre vannak kerekítve (pl. 2,55 óra).

  • Modellalapú osztályozó használata: Ha OpenAI modellt használ a kimenetek „osztályozására” a tanítás során, akkor az ezen osztályozási hívások által felhasznált tokeneket a tanítás befejezése után külön számlázzuk a szokásos API-díjszabásunk szerint.

Csak azért a tanítási munkáért számítunk fel díjat, amely ténylegesen frissíti a modelljét (ezt nevezzük „rögzített előrehaladásnak”).

Miért számlázunk

Azért az időért számlázunk, amelyet a tanítási munkafolyamat aktívan a modell tanításával tölt, konkrétan:

  • Minták előállítása a modellből a finomhangolási folyamat során (ezeket „rolloutoknak” nevezzük)

  • Ezeknek a kimeneteknek az értékelése egy vagy több, a feladaton Ön által meghatározott osztályozóval (további információ az osztályozókról)

  • A súlyfrissítések kiszámítása és alkalmazása az osztályzatok alapján (backpropagation).

  • Az Ön által konfigurált validációs (értékelési) lépések futtatása.

A legtöbb osztályozó futtatása „ingyenes”, ami azt jelenti, hogy használatukért nem számítunk fel külön díjat azon az időn felül, amellyel hozzájárulnak az alapvető tanítási ciklushoz. Kivételt képeznek a modellalapú osztályozók, amelyeknél az előbbi tevékenységek során felhasznált tokeneket is összesítjük. Ezek a tokenek külön tételként jelennek meg a számlán. A modellalapú osztályozók által felhasznált tokenek számlázása normál következtetési díjszabás szerint történik (OpenAI díjszabás).

Miért NEM számlázunk

Nem számítunk fel díjat az alábbiakra fordított időért:

  • Az adatkészlet validálása vagy vizsgálata a tanítás megkezdése előtt.

  • Az adatkészlet biztonsági ellenőrzései.

  • Várakozás a sorban számítási erőforrásokra.

  • Modellsúlyok vagy adatkészletek letöltése.

  • Az adatkészlet előkészítése (renderelése) a tanítási formátumunkhoz.

  • A finomhangolt modell tanítás utáni biztonsági értékelései.

Ha a tanítási munka a mi oldalunkon fellépő hiba miatt vész el (például ha egy munkafolyamat összeomlik, és vissza kell állnia egy korábbi ellenőrzőpontra), az elveszett számítási időért vagy osztályozói tokenekért nem számítunk fel díjat. Erről a következő részben talál további részleteket.

Rögzített előrehaladás és számlázási események

A tanítás a modell számos apró frissítéséből áll. Nyomon követjük, hogy ezek közül hány frissítés fejeződik be sikeresen. A díjak ezekhez a sikeres frissítésekhez kapcsolódó számítási időn és osztályozói tokeneken alapulnak.

Díjat számítunk fel, amikor az alábbi „számlázási események” egyike bekövetkezik:

  • A tanítás sikeresen befejeződik.

  • Szünetelteti a tanítást.

  • Megszakítja a tanítást.

  • A tanítás meghiúsul.

Minden díj az előző díj óta elvégzett többletmunkát fedezi. Például:

  • Ha szüneteltet egy futást, mentünk egy ellenőrzőpontot, és kiszámlázzuk az előző díj óta felhasznált számítási időt és osztályozói tokeneket.

  • Amikor folytatja, a tanítás az ellenőrzőponttól folytatódik. A következő díj (befejezéskor, újabb szüneteltetéskor, megszakításkor vagy meghibásodáskor) csak a folytatás után elvégzett további munkát fogja fedezni.

  • Ha megszakít egy futást, a megszakításig elvégzett munkát számlázzuk ki.

  • Ha a tanítás meghiúsul, és az előző díj óta végzett munka elveszik, az elveszett részért nem számlázunk.

Ez a „rögzített előrehaladás” megközelítés biztosítja, hogy csak azért a munkáért fizessen, amely megmarad a modelljében, vagy amelyet szándékosan felad.

A feladat előrehaladásának megtekintése

Az RFT-feladatok rendelkeznek egy usage_metrics nevű mezővel, amely a feladat aktuális lépésig összesített használatát dokumentálja. Ez magában foglalja a tanítással töltött időt és a feladat összes modellalapú osztályozója által felhasznált összes tokent. Ez a mező az API-n keresztül (GET /v1/fine_tuning/jobs/{job_id}) vagy a finomhangolási irányítópulton tekinthető meg.

A tanítási időt befolyásoló tényezők

Mivel a számlázás időalapú, a konfigurációs választásai közvetlenül befolyásolják a költséget. A fő tényezők a következők:

  • A probléma nehézsége: ha az adatkészlet nehéz problémákból áll, a modell valószínűleg több időt tölt az egyes problémákon való érveléssel, ami növeli az egyes minták előállításához szükséges időt.

  • Számítási intenzitás: A compute_multiplier hiperparaméter szabályozza, mennyi számítást végez egy tanítási lépés során. A magasabb értékek arra ösztönzik a modellt, hogy részletesebben érveljen az egyes adatpontokon, ami lassabbá teszi az egyes lépéseket.

  • Validációs beállítások:

    • A nagyobb validációs halmaz növeli az értékelésre fordított időt.

    • Az eval_samples növelése (az egy validációs példára osztályozott modellkimenetek száma) növeli a validáció idejét.

    • A gyakoribb validáció futtatása (alacsonyabb eval_interval) növeli a validációra fordított idő arányát.

  • Az osztályozók teljesítménye:

    • A nagyobb vagy nagyobb képességű modellalapú osztályozók több idő alatt adnak vissza értékelést, mint a kisebbek. Például egy érvelési modellel történő osztályozás 10-szer tovább tarthat, mint egy nem érvelési modellel történő osztályozás.

    • Az összetett Python-osztályozó függvények futtatása tovább tart, mint az egyszerűké.

Ezek a beállítások lehetővé teszik, hogy egyensúlyt teremtsen a költség, a sebesség és a modellminőség között. Például a gyakori validáció korábban felismerheti a problémákat, de növeli a költségeket. Egy fejlettebb modellel végzett osztályozás drasztikusan javíthatja az osztályozás pontosságát, de lelassítja az egyes osztályozási lépéseket, és drágábbá teszi a feladatokat.

Költségkezelés

A költések szabályozásához:

  • Kezdjen rövidebb futásokkal, hogy megértse, a konfigurációja hogyan hat az időre.

  • Használjon ésszerű számú validációs példát és eval_samples értéket. Ne validáljon gyakrabban, mint amennyire szükség van.

  • Válassza a legkisebb olyan osztályozó modellt, amely megfelel a minőségi követelményeinek.

  • Tartsa hatékonynak az egyéni Python-osztályozókat.

  • Állítsa be a compute_multiplier értékét úgy, hogy egyensúlyban legyen a konvergencia sebessége és a költség.

  • Kövesse nyomon a futást az irányítópulton vagy az API-n keresztül. Bármikor szüneteltetheti vagy megszakíthatja.

Példák

Sikeres tanítási futás

Tanítási időSzámlázott időÁllapotLeírás
00 : 0000 : 00A felhasználó API-n keresztül létrehoz egy RFT-feladatot
00 : 1000 : 00VALIDATING_FILES10 perc az adatkészlet validálásával
00 : 3000 : 00VALIDATING_FILES20 perc az adatkészlet biztonsági ellenőrzéseinek futtatásával
01 : 0000 : 00QUEUED30 perc várakozás elérhető munkafolyamatra
01 : 3000 : 00RUNNING30 perc a tanítás beállításával (súlyok letöltése, előfeldolgozás stb.)
05 : 3004 : 00RUNNING4 óra tanítással töltve
06 : 0004 : 00RUNNING30 perc az elkészült modell biztonsági értékeléseinek futtatásával
06 : 0004 : 00SUCCEEDEDA tanítás befejeződik

Ebben az esetben a teljes eltelt idő 6 óra, de ebből csak 4 óra számlázható. A költség 4 óra × 100 $/óra = 400 $.

Példa sikertelen feladatra

Ebben a példában a futás 2 órán át tanít, létrehoz egy ellenőrzőpontot, további 1 órán át tanít, majd meghiúsul. Csak az ellenőrzőpontig tartó 2 óra tanítás számlázható.

Tanítási időSzámlázott időÁllapotLeírás
00 : 0000 : 00A felhasználó API-n keresztül létrehoz egy RFT-feladatot
00 : 1000 : 00VALIDATING_FILES10 perc az adatkészlet validálásával
00 : 3000 : 00VALIDATING_FILES20 perc az adatkészlet biztonsági ellenőrzéseinek futtatásával
01 : 0000 : 00QUEUED30 perc várakozás elérhető munkafolyamatra
01 : 3000 : 00RUNNING30 perc a tanítás beállításával (súlyok letöltése, előfeldolgozás stb.)
03 : 3002 : 00RUNNING2 óra tanítással töltve
03 : 3002 : 00RUNNINGEllenőrzőpont létrehozva az 5. lépésnél
04 : 3002 : 00RUNNINGA tanítás belső hiba miatt meghiúsul a 8. lépésnél (további 1 óra után)
04 : 3002 : 00RUNNING30 perc az ellenőrzőpont értékelésével és validálásával
04 : 3002 : 00SUCCEEDEDA feladat befejeződik (a legutóbbi ellenőrzőponttal)

Annak ellenére, hogy összesen 3 órát töltöttek tanítással, csak 2 óra van „rögzítve” egy használható ellenőrzőpontban, ezért ez számlázható. A hiba miatt elveszett 1 óra tanítási munka nem az Ön felelőssége. A költség 2 óra × 100 $/óra = 200 $.

Gyakran ismételt kérdések

Mikor számítunk fel díjat?

Akkor számlázunk, amikor a futás befejeződik, szünetel, megszakítják vagy meghiúsul. Minden számla az előző számla óta elvégzett munkát fedezi.

Kell fizetnem, ha egy futás meghiúsul?

Ha egy futás a mi hibánk miatt hiúsul meg, és a közelmúltbeli tanítási munka egy része elveszik, az elveszett részért nem számítunk fel díjat. Ha megszakít egy futást, a megszakításig elvégzett munkáért számítunk fel díjat.

Hogyan számlázzák az osztályozó modellek tokenjeit?

Összeszámoljuk az Ön által konfigurált összes modellalapú osztályozó által használt tokeneket. A tanítás befejezése után ezeket a tokeneket a szokásos tokenenkénti díjszabásunk szerint számlázzuk.

Szüneteltethetek és folytathatok egy futást?

Igen. Amikor szüneteltet, mentünk egy ellenőrzőpontot, és kiszámlázzuk az addig elvégzett munkát. Amikor folytatja, csak a folytatás után elvégzett további munkáért számítunk fel díjat.

Ha további kérdése van a Reinforcement Fine‑Tuning számlázásával kapcsolatban, lépjen kapcsolatba ügyfélszolgálatunkkal.

Hasznos volt ez a cikk?