Come funziona la fatturazione per RFT

Il Reinforcement fine‑tuning (RFT) consente di ottimizzare le prestazioni dei modelli di ragionamento di OpenAI utilizzando l'apprendimento per rinforzo. A differenza delle nostre offerte di ottimizzazione supervisionata o basate sulle preferenze, che vengono fatturate in base al numero di token presenti nel set di dati di addestramento, l'RFT viene fatturato in base al tempo impiegato dall'addestramento per eseguire il lavoro di apprendimento automatico di base.

Questa guida spiega cosa si intende per tempo di addestramento fatturabile, come gestiamo le pause e le cancellazioni e in che modo le tue scelte di configurazione possono influire sui costi.

Tariffe

Calcolo: $100 per ora di tempo effettivo trascorsa nel ciclo di addestramento principale per o4-mini-2025-04-16. Le spese sono calcolate al secondo e arrotondate a due cifre decimali sulla fattura (ad esempio, 2,55 ore).
Utilizzo del modello di valutazione: se utilizzi un modello OpenAI per "valutare" i risultati durante l'addestramento, i token utilizzati da tali chiamate di valutazione vengono fatturati separatamente alle nostre tariffe API standard al termine dell'addestramento.

Addebitiamo solo il lavoro di addestramento che effettivamente aggiorna il tuo modello (quello che chiamiamo "progresso effettivo").

Cosa fatturiamo

Fatturiamo il tempo che il nostro addetto all'addestramento dedica attivamente alla formazione del tuo modello, in particolare:

Generazione di campioni dal tuo modello durante il processo di messa a punto (noto come "rollout")
Valutazione di tali risultati con uno o più valutatori che hai definito per il lavoro (scopri di più sui valutatori)
Calcolo e applicazione degli aggiornamenti dei pesi in base ai voti (retropropagazione).
Esegui i passaggi di convalida (valutazione) che hai configurato.

La maggior parte dei valutatori è "gratuita", il che significa che non addebitiamo alcun costo aggiuntivo per il loro utilizzo al di fuori del tempo che dedicano al ciclo di addestramento principale. L'eccezione è rappresentata dai valutatori di modelli, per i quali conteggiamo anche i token che consumano durante le attività sopra menzionate. Questi token vengono indicati come una voce separata sulla fattura. I token utilizzati dai valutatori di modelli vengono fatturati alle normali tariffe di inferenza (tariffario OpenAI).

Cosa NON fatturiamo

Non addebitiamo il tempo impiegato per:

Convalidare o ispezionare il set di dati prima dell'inizio dell'addestramento.
Controlli di sicurezza sul tuo set di dati.
Attesa in coda per le risorse di calcolo.
Download dei pesi del modello o dei set di dati.
Preparazione (rendering) del tuo set di dati nel nostro formato di addestramento.
Valutazioni di sicurezza post-addestramento del tuo modello ottimizzato.

Se il lavoro di addestramento viene perso a causa di un errore da parte nostra (ad esempio, se un lavoratore si blocca e deve tornare a un checkpoint precedente), non ti verrà addebitato il tempo di calcolo perso né i token di valutazione. Maggiori dettagli su questo argomento sono disponibili nella sezione successiva.

Progressi compiuti ed eventi di fatturazione

L'addestramento consiste in numerosi piccoli aggiornamenti al modello. Monitoriamo quanti di questi aggiornamenti vengono completati con successo. Gli addebiti si basano sul tempo di calcolo e sui token di valutazione associati a questi aggiornamenti completati con successo.

Addebitiamo un costo quando si verifica uno dei seguenti "eventi di fatturazione":

L'addestramento viene completato con successo.
Si mette in pausa l'addestramento.
Si annulla l'addestramento.
L'addestramento non è riuscito.

Ogni addebito copre il lavoro aggiuntivo svolto dall'ultimo addebito. Ad esempio:

Se metti in pausa un'esecuzione, salviamo un checkpoint e ti addebitiamo il tempo di calcolo e i token di valutazione utilizzati dall'ultimo addebito.
Quando riprendi, l'addestramento continua dal checkpoint. Il prossimo addebito (al completamento, a un'altra pausa, alla cancellazione o a un errore) coprirà solo il lavoro aggiuntivo svolto dopo la ripresa.
Se annulli un'esecuzione, ti addebiteremo il lavoro svolto fino al momento dell'annullamento.
Se l'addestramento non funziona e il lavoro svolto dall'ultimo addebito viene perso, non ti verrà addebitata la parte mancante.

Questo approccio basato sul "progresso acquisito" ti garantisce di pagare solo per il lavoro che viene conservato nel tuo modello o che abbandoni intenzionalmente.

Visualizzazione dello stato di avanzamento del lavoro

I lavori RFT hanno un campo chiamato usage_metrics che documenta l'utilizzo totale del lavoro fino al passaggio corrente. Ciò include il tempo impiegato per l'addestramento e tutti i token utilizzati in tutti i valutatori di modelli del lavoro. Questo campo può essere consultato tramite l'API (GET /v1/fine_tuning/jobs/{job_id}) o tramite la dashboard di fine-tuning.

Fattori che influenzano il tempo di addestramento

Poiché la fatturazione è basata sul tempo, le scelte di configurazione influiscono direttamente sul costo. I fattori chiave includono:

Difficoltà del problema: se il set di dati è costituito da problemi difficili, il modello impiegherà probabilmente più tempo per ragionare su ciascun problema, aumentando il tempo necessario per produrre ciascun campione.
Intensità di calcolo: l'iperparametro compute_multiplier controlla la quantità di calcoli eseguiti per ogni fase di addestramento. Valori più elevati incoraggiano il modello a ragionare in modo più dettagliato su ogni punto dati, il che rallenta l'esecuzione di ogni fase.
Impostazioni di convalida:
- Un set di convalida più ampio aumenta il tempo impiegato per la valutazione.
- Aumentando eval_samples (il numero di output del modello valutati per ogni esempio di convalida) aumenta il tempo di convalida.
- Eseguendo la convalida più frequentemente (eval_interval più basso) aumenta la percentuale di tempo dedicata alla convalida.
Prestazioni del valutatore:
- I modelli di valutatori più grandi o più potenti impiegano più tempo a restituire una valutazione rispetto a quelli più piccoli. Ad esempio, la valutazione con un modello di ragionamento può richiedere 10 volte più tempo rispetto alla valutazione con un modello non di ragionamento.
- Le funzioni di valutazione Python complesse richiedono più tempo per essere eseguite rispetto a quelle semplici.

Queste impostazioni consentono di trovare un compromesso tra costo, velocità e qualità del modello. Ad esempio, una convalida frequente consente di individuare i problemi in anticipo, ma aumenta i costi. La classificazione con un modello più avanzato può migliorare notevolmente la precisione della classificazione, ma rallenta ogni fase della classificazione e rende i lavori più costosi.

Gestione dei costi

Per controllare la spesa:

Inizia con esecuzioni più brevi per capire in che modo la configurazione influisce sui tempi.
Utilizza un numero ragionevole di esempi di convalida ed eval_samples. Evita di eseguire convalide più spesso del necessario.
Scegli il modello di valutatore più piccolo che soddisfi i tuoi requisiti di qualità.
Mantieni efficienti i valutatori personalizzati Python.
Regola compute_multiplier per bilanciare la velocità di convergenza e i costi.
Monitora la tua esecuzione nella dashboard o tramite l'API. Puoi mettere in pausa o annullare in qualsiasi momento.

Esempi

Esecuzione di addestramento riuscita

Tempo di addestramento	Tempo fatturato	Stato	Descrizione
00:00	00:00	–	L'utente crea un lavoro RFT tramite API
00:10	00:00	VALIDAZIONE_FILE	10 minuti dedicati alla convalida del set di dati
00:30	00:00	VALIDAZIONE_FILE	20 minuti per eseguire controlli di sicurezza sui dataset
01:00	00:00	IN CODA	30 minuti di attesa per un lavoratore disponibile
01:30	00:00	IN ESECUZIONE	30 minuti per impostare l'addestramento (scaricare i pesi, pre-elaborazione, ecc.)
05:30	04:00	IN ESECUZIONE	4 ore dedicate all'addestramento
06:00	04:00	IN ESECUZIONE	30 minuti di esecuzione delle valutazioni di sicurezza del modello risultante
06:00	04:00	COMPLETATO	L'addestramento termina

In questo caso, il tempo totale trascorso è di 6 ore, ma solo 4 ore sono fatturabili. Il costo sarebbe di 4 ore × 100 $/ora = 400 $.

Esempio di lavoro fallito

In questo esempio, la sessione di addestramento dura 2 ore, viene scritto un checkpoint, l'addestramento prosegue per un'altra ora, ma poi fallisce. Sono fatturabili solo le 2 ore di addestramento fino al checkpoint.

Tempo di addestramento	Tempo fatturato	Stato	Descrizione
00:00	00:00	–	L'utente crea un lavoro RFT tramite API
00:10	00:00	VALIDAZIONE_FILE	10 minuti dedicati alla convalida del set di dati
00:30	00:00	VALIDAZIONE_FILE	20 minuti per eseguire controlli di sicurezza sui dataset
01:00	00:00	IN CODA	30 minuti di attesa per un lavoratore disponibile
01:30	00:00	IN ESECUZIONE	30 minuti per impostare l'addestramento (scaricare i pesi, pre-elaborazione, ecc.)
03:30	02:00	IN ESECUZIONE	2 ore dedicate all'addestramento
03:30	02:00	IN ESECUZIONE	Checkpoint creato al passaggio 5
04:30	02:00	IN ESECUZIONE	L'addestramento fallisce a causa di un errore interno al passaggio 8 (dopo un'altra ora)
04:30	02:00	IN ESECUZIONE	30 minuti per valutare e convalidare il checkpoint
04:30	02:00	COMPLETATO	Il lavoro è terminato (con l'ultimo checkpoint)

Sebbene siano state impiegate in totale 3 ore per l'addestramento, solo 2 ore vengono "registrate" in un checkpoint utilizzabile e fatturate L'ora di addestramento persa a causa del guasto non è a tuo carico. Il costo sarebbe di 2 ore × 100 $/ora = 200 $.

Domande frequenti

Quando mi viene addebitato il costo?

Emettiamo la fattura al completamento, alla sospensione, alla cancellazione o al fallimento dell'esecuzione. Ogni fattura copre il lavoro svolto dal momento della fattura precedente.

Devo pagare se un'esecuzione non va a buon fine?

Se una sessione non va a buon fine a causa di un nostro errore e il lavoro di addestramento recente viene perso, non ti verrà addebitato alcun costo per la parte persa. Se annulli una sessione, ti verrà addebitato il costo del lavoro svolto fino al momento dell'annullamento.

Come vengono fatturati i token del modello di valutazione?

Contiamo i token utilizzati da tutti i modelli di valutazione configurati. Dopo che l'addestramento è terminato, fatturiamo quei token in base alle nostre tariffe standard per token.

Posso mettere in pausa e riprendere un'esecuzione?

Sì. Quando metti in pausa, salviamo un checkpoint e addebitiamo il lavoro svolto fino a quel momento. Quando riprendi, ti verrà addebitato solo il lavoro aggiuntivo svolto dopo la ripresa.

Per ulteriori domande sulla fatturazione relativa al Reinforcement Fine-Tuning, contatta il nostro team di assistenza.

Guida alla fatturazione per l'API di Reinforcement Fine Tuning