Scopri come impostare limiti di output per i modelli OpenAI usando impostazioni dei token, prompt chiari, esempi e sequenze di stop.

Panoramica

Controllare la lunghezza della risposta di un modello è utile per vari motivi: aiuta a gestire i costi (dato che paghi per token), migliora latenza/prestazioni (le risposte più brevi arrivano più rapidamente) e garantisce la pertinenza evitando output troppo lunghi o prolissi.

Puoi farlo usando limiti di token, impostazioni di ragionamento e verbosity, istruzioni chiare, esempi e sequenze di stop. Per i dettagli più aggiornati e completi, consulta sempre il riferimento API ufficiale su platform.openai.com.

Imposta una lunghezza massima dell'output

Responses API

Usata per i modelli GPT-5 e la maggior parte dei modelli della serie o: usa max_output_tokens per limitare il numero di token che il modello genererà. Per le richieste compaction_trigger, ometti max_output_tokens oppure impostalo almeno su 20000; valori inferiori vengono rifiutati. La Responses API non supporta completamenti multipli (n).

API per il completamento delle chat

Usata per GPT-3.5, GPT-4o legacy e talvolta per la serie o.

Per modelli di ragionamento come o3 e o4-mini, usa max_completion_tokens (alias di max_tokens)
Per i modelli precedenti/non di ragionamento, max_tokens funziona ancora
Supporta stop e n (completamenti multipli).

Nota: non esiste un'impostazione “token minimi”. Se ti serve una lunghezza minima, specificala nel prompt.

Limiti di token per gruppo di modelli

Per limiti di token, dimensioni del contesto e limiti di output aggiornati, consulta la documentazione del modello specifico.

Esempi rapidi

Responses API

{ "model": "gpt-5", "input": "Riassumi i risultati in circa 80 parole.", "max_output_tokens": 120 }

Chat Completions (modello di ragionamento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Scrivi cinque opzioni su una sola riga."}], "max_completion_tokens": 100 }

Controlli specifici dei modelli GPT-5: `verbosity` e `reasoning.effort`

Questi controlli sono disponibili solo sui modelli GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, ecc.). I modelli della serie O e legacy non li supportano.

`verbosity` accetta "low", "medium" (predefinito) o "high". Influisce sul livello di dettaglio, ma non sui limiti rigidi.

{ "model": "gpt-5", "input": "Spiega PageRank a grandi linee.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controlla quanti token di ragionamento vengono generati prima di produrre una risposta. GPT-5.2 supporta none,low, medium, high,and xhigh. gpt-5.2-pro supporta solo medium, high,and xhigh. I modelli di ragionamento precedenti supportano solo low, medium e high.

{ "model": "gpt-5", "input": "Quanto oro servirebbe per rivestire la Statua della Libertà con uno strato di 1 mm?", "reasoning": { "effort": "minimal" } }

Puoi impostare `reasoning.effort` su none per far comportare il modello come un modello non di ragionamento nei casi d'uso sensibili alla latenza.

Fornisci istruzioni specifiche

Richiedi la lunghezza o la forma esatta che desideri. Esempi:

«Elenca esattamente cinque opzioni».
«Scrivi un riepilogo di 50 parole».
«Non più di 100 token. Se ti serve più spazio, scrivi “Mi serve più spazio”»

Usa esempi di lunghezza coerente

Esempi few-shot che corrispondono alla lunghezza desiderata aiutano il modello a continuare lo schema.

Applica sequenze di stop strategiche

Usa stop per interrompere la generazione quando il modello raggiunge un delimitatore o il limite di un elenco numerato.

{ "stop": ["\n###", "6."] }

Più candidati

Chat Completions: n restituisce più completamenti in una sola chiamata.
Responses API: n non è supportato; effettua più chiamate se ti serve più di un output.

Controllare la lunghezza delle risposte dei modelli OpenAI

Panoramica

Imposta una lunghezza massima dell'output

Responses API

API per il completamento delle chat

Limiti di token per gruppo di modelli

Esempi rapidi

Controlli specifici dei modelli GPT-5: `verbosity` e `reasoning.effort`

Fornisci istruzioni specifiche

Usa esempi di lunghezza coerente

Applica sequenze di stop strategiche

Più candidati

Questo articolo è stato utile?

Controllare la lunghezza delle risposte dei modelli OpenAI

Panoramica

Imposta una lunghezza massima dell'output

Responses API

API per il completamento delle chat

Limiti di token per gruppo di modelli

Esempi rapidi

Controlli specifici dei modelli GPT-5: verbosity e reasoning.effort

Fornisci istruzioni specifiche

Usa esempi di lunghezza coerente

Applica sequenze di stop strategiche

Più candidati

Questo articolo è stato utile?

Controlli specifici dei modelli GPT-5: `verbosity` e `reasoning.effort`