Kako funkcionira naplata preciznog podešavanja potkrepljivanjem

Precizno podešavanje potkrepljivanjem (RFT) omogućuje optimizaciju performansi OpenAI-jevih modela za rasuđivanje pomoću učenja s potkrepljivanjem. Za razliku od naših ponuda nadziranog preciznog podešavanja ili preciznog podešavanja prema preferencijama, koje se naplaćuju prema broju tokena u skupu podataka za obuku, RFT se naplaćuje na temelju vremena koje vaše izvođenje obuke provede obavljajući temeljni rad strojnog učenja.

Ovaj vodič objašnjava što se računa kao naplativo vrijeme treniranja, kako postupamo s pauzama i otkazivanjima te kako vaši odabiri konfiguracije mogu utjecati na trošak.

Cijene

Računanje: 100 USD po satu proteklog vremena provedenog u osnovnoj petlji treniranja za o4-mini-2025-04-16. Naknade se obračunavaju razmjerno po sekundi i na računu zaokružuju na dvije decimale (npr. 2,55 sati).
Upotreba modela ocjenjivača: Ako tijekom treniranja upotrebljavate OpenAI model za "ocjenjivanje" izlaza, tokeni potrošeni tim pozivima za ocjenjivanje naplaćuju se zasebno prema našim standardnim API tarifama nakon završetka treniranja.

Naplatu vršimo samo za rad treniranja koji stvarno ažurira vaš model (ono što nazivamo "zabilježenim napretkom unaprijed").

Što naplaćujemo

Naplaćujemo vrijeme koje vaš radni proces za treniranje provede aktivno trenirajući vaš model, konkretno:

Generiranje uzoraka iz vašeg modela tijekom postupka preciznog podešavanja (poznato kao „rollouts”)
Evaluiranje tih izlaza s jednim ili više ocjenjivača koje ste definirali za posao (saznajte više o ocjenjivačima)
Izračunavanje i primjena ažuriranja težina na temelju ocjena (propagacija unatrag).
Izvođenje svih koraka provjere valjanosti (evaluacije) koje ste konfigurirali.

Većina ocjenjivača „besplatna” je za pokretanje, što znači da ne naplaćujemo dodatno njihovu upotrebu izvan količine vremena kojom doprinose osnovnoj petlji treniranja. Iznimka su modelni ocjenjivači, kod kojih također zbrajamo tokene koje ti ocjenjivači potroše tijekom navedenih aktivnosti. Ti se tokeni pojavljuju kao zasebna stavka na vašem računu. Tokeni koje potroše modelni ocjenjivači naplaćuju se po uobičajenim cijenama zaključivanja (cijene OpenAI-ja).

Što NE naplaćujemo

Ne naplaćujemo vrijeme provedeno na:

Validaciji ili pregledu vašeg skupa podataka prije početka treniranja.
Sigurnosnim provjerama vašeg skupa podataka.
Čekanju u redu za računalne resurse.
Preuzimanju težina modela ili skupova podataka.
Pripremi (renderiranju) vašeg skupa podataka u naš format za treniranje.
Sigurnosnim evaluacijama vašeg precizno podešenog modela nakon treniranja.

Ako se rad treniranja izgubi zbog pogreške s naše strane (na primjer, ako se radnik sruši i mora se vratiti na prethodnu kontrolnu točku), izgubljeno vrijeme računanja ili tokeni ocjenjivača neće vam biti naplaćeni. Više pojedinosti o tome u sljedećem odjeljku.

Zabilježeni napredak unaprijed i događaji naplate

Treniranje se sastoji od mnogo malih ažuriranja vašeg modela. Pratimo koliko se tih ažuriranja uspješno dovrši. Naknade se temelje na vremenu računanja i tokenima ocjenjivača povezanima s tim uspješnim ažuriranjima.

Naplatu izdamo kada se dogodi jedan od sljedećih "događaja naplate":

Treniranje se uspješno dovrši.
Pauzirate treniranje.
Otkažete treniranje.
Treniranje ne uspije.

Svaka naplata pokriva inkrementalni rad obavljen od posljednje naplate. Na primjer:

Ako pauzirate pokretanje, spremamo kontrolnu točku i naplaćujemo vam vrijeme računanja i tokene ocjenjivača upotrijebljene od posljednje naplate.
Kada nastavite, treniranje se nastavlja od kontrolne točke. Sljedeća naplata (po dovršetku, drugoj pauzi, otkazivanju ili neuspjehu) obuhvatit će samo dodatni rad obavljen nakon nastavka.
Ako otkažete pokretanje, naplaćujemo vam rad obavljen do otkazivanja.
Ako treniranje ne uspije i rad od posljednje naplate bude izgubljen, taj izgubljeni dio vam se ne naplaćuje.

Ovaj pristup "zabilježenog napretka unaprijed" osigurava da plaćate samo rad koji je zadržan u vašem modelu ili koji namjerno napustite.

Pregled napretka posla

Poslovi preciznog podešavanja potkrepljivanjem imaju polje usage_metrics koje dokumentira ukupnu upotrebu posla do trenutačnog koraka. To uključuje vrijeme provedeno u treniranju i sve tokene upotrijebljene u svim modelnim ocjenjivačima na poslu. To se polje može pregledati putem API-ja (GET /v1/fine_tuning/jobs/{job_id}) ili putem nadzorne ploče za precizno podešavanje.

Čimbenici koji utječu na vrijeme treniranja

Budući da se naplata temelji na vremenu, vaši odabiri konfiguracije izravno utječu na trošak. Ključni čimbenici uključuju:

Težina problema: ako se vaš skup podataka sastoji od teških problema, model će vjerojatno provoditi više vremena u rasuđivanju o svakom problemu, što povećava vrijeme potrebno za izradu svakog uzorka.
Računalni intenzitet: hiperparametar compute_multiplier kontrolira koliko računalnog rada obavljate po koraku treniranja. Više vrijednosti potiču model na opširnije rasuđivanje nad svakom podatkovnom točkom, zbog čega se svaki korak izvršava sporije.
Postavke validacije:
- Veći skup za validaciju povećava vrijeme provedeno na evaluaciji.
- Povećanje eval_samples (broja izlaza modela koji se ocjenjuju po primjeru validacije) povećava vrijeme validacije.
- Češće pokretanje validacije (niži eval_interval) povećava udio vremena provedenog na validaciji.
Performanse ocjenjivača:
- Veći ili sposobniji modeli ocjenjivača trebaju više vremena za vraćanje ocjene nego manji. Na primjer, ocjenjivanje modelom za rasuđivanje može trajati 10x dulje nego ocjenjivanje modelom koji nije za rasuđivanje.
- Složene Python funkcije za ocjenjivanje trebaju više vremena za izvršavanje od jednostavnih.

Ove postavke omogućuju vam usklađivanje troška, brzine i kvalitete modela. Na primjer, česta validacija može ranije otkriti probleme, ali povećava trošak. Ocjenjivanje naprednijim modelom može znatno poboljšati točnost ocjenjivanja, ali će usporiti svaki korak ocjenjivanja i poskupjeti zadatke.

Upravljanje troškovima

Kako biste kontrolirali potrošnju:

Započnite s kraćim pokretanjima kako biste razumjeli kako vaša konfiguracija utječe na vrijeme.
Upotrebljavajte razuman broj primjera za validaciju i eval_samples. Izbjegavajte validaciju češće nego što vam je potrebno.
Odaberite najmanji model ocjenjivača koji zadovoljava vaše zahtjeve kvalitete.
Neka prilagođeni Python ocjenjivači budu učinkoviti.
Prilagodite compute_multiplier kako biste uravnotežili brzinu konvergencije i trošak.
Pratite svoje pokretanje na nadzornoj ploči ili putem API-ja. U svakom trenutku možete pauzirati ili otkazati.

Primjeri

Uspješno izvođenje treniranja

Vrijeme treniranja	Naplaćeno vrijeme	Status	Opis
00:00	00:00	–	Korisnik stvara posao preciznog podešavanja potkrepljivanjem putem API-ja
00:10	00:00	VALIDATING_FILES	10 minuta provedeno u provjeri valjanosti skupa podataka
00:30	00:00	VALIDATING_FILES	20 minuta izvođenja sigurnosnih provjera skupa podataka
01:00	00:00	QUEUED	30 minuta čekanja dostupnog radnog procesa
01:30	00:00	RUNNING	30 minuta postavljanja treniranja (preuzimanje težina, predobrada itd.)
05:30	04:00	RUNNING	4 sata provedena u treniranju
06:00	04:00	RUNNING	30 minuta izvođenja sigurnosnih evaluacija rezultirajućeg modela
06:00	04:00	SUCCEEDED	Treniranje završava

U ovom slučaju ukupno stvarno vrijeme iznosi 6 sati, ali naplativa su samo 4 sata. Trošak bi bio 4 sata × $100/sat = $400.

Primjer neuspjelog posla

U ovom primjeru izvođenje trenira 2 sata, zapisuje kontrolnu točku, trenira još 1 sat, ali zatim ne uspije. Naplativa su samo 2 sata treniranja do kontrolne točke.

Vrijeme treniranja	Naplaćeno vrijeme	Status	Opis
00:00	00:00	–	Korisnik stvara posao preciznog podešavanja potkrepljivanjem putem API-ja
00:10	00:00	VALIDATING_FILES	10 minuta provedeno u provjeri valjanosti skupa podataka
00:30	00:00	VALIDATING_FILES	20 minuta izvođenja sigurnosnih provjera skupa podataka
01:00	00:00	QUEUED	30 minuta čekanja dostupnog radnog procesa
01:30	00:00	RUNNING	30 minuta postavljanja treniranja (preuzimanje težina, predobrada itd.)
03:30	02:00	RUNNING	2 sata provedena u treniranju
03:30	02:00	RUNNING	Kontrolna točka stvorena u koraku 5
04:30	02:00	RUNNING	Treniranje ne uspijeva zbog interne pogreške u koraku 8 (nakon još 1 sata)
04:30	02:00	RUNNING	30 minuta evaluiranja i provjere valjanosti kontrolne točke
04:30	02:00	SUCCEEDED	Posao završava (s najnovijom kontrolnom točkom)

Iako su ukupno 3 sata provedena u treniranju, samo su 2 sata „obuhvaćena” upotrebljivom kontrolnom točkom i naplaćuju se. Sat rada na treniranju izgubljen zbog neuspjeha nije vaša odgovornost. Trošak bi bio 2 sata × $100/sat = $200.

Često postavljana pitanja

Kada mi se naplaćuje?

Naplaćujemo kada se vaše izvođenje dovrši, pauzira, otkaže ili ne uspije. Svaki račun obuhvaća rad obavljen od prethodnog računa.

Plaćam li ako izvođenje ne uspije?

Ako izvođenje ne uspije zbog naše pogreške i izgubi se nedavni rad na treniranju, izgubljeni dio vam se ne naplaćuje. Ako otkažete izvođenje, naplaćuje vam se rad do trenutka otkazivanja.

Kako se naplaćuju tokeni modela ocjenjivača?

Brojimo tokene koje upotrijebe svi modelni ocjenjivači koje konfigurirate. Nakon završetka treniranja te tokene naplaćujemo po našim standardnim cijenama po tokenu.

Mogu li pauzirati i nastaviti izvođenje?

Da. Kada pauzirate, spremamo kontrolnu točku i naplaćujemo do tada obavljen rad. Kada nastavite, naplatit će vam se samo dodatni rad obavljen nakon nastavka.

Ako imate drugih pitanja o naplati preciznog podešavanja potkrepljivanjem, obratite se našem timu za podršku.

Vodič za naplatu za API za precizno podešavanje potkrepljivanjem