Panoramica
Controllare la lunghezza della risposta di un modello è utile per vari motivi: aiuta a gestire i costi (dato che paghi per token), migliora latenza/prestazioni (le risposte più brevi arrivano più rapidamente) e garantisce la pertinenza evitando output troppo lunghi o prolissi.
Puoi farlo usando limiti di token, impostazioni di ragionamento e verbosity, istruzioni chiare, esempi e sequenze di stop. Per i dettagli più aggiornati e completi, consulta sempre il riferimento API ufficiale su platform.openai.com.
Imposta una lunghezza massima dell'output
Responses API
Usata per i modelli GPT-5 e la maggior parte dei modelli della serie o: usa max_output_tokens per limitare il numero di token che il modello genererà. Per le richieste compaction_trigger, ometti max_output_tokens oppure impostalo almeno su 20000; valori inferiori vengono rifiutati. La Responses API non supporta completamenti multipli (n).
API per il completamento delle chat
Usata per GPT-3.5, GPT-4o legacy e talvolta per la serie o.
Per modelli di ragionamento come o3 e o4-mini, usa
max_completion_tokens(alias dimax_tokens)Per i modelli precedenti/non di ragionamento,
max_tokensfunziona ancoraSupporta
stopen(completamenti multipli).
Nota: non esiste un'impostazione “token minimi”. Se ti serve una lunghezza minima, specificala nel prompt.
Limiti di token per gruppo di modelli
Per limiti di token, dimensioni del contesto e limiti di output aggiornati, consulta la documentazione del modello specifico.
Esempi rapidi
Responses API
{ "model": "gpt-5", "input": "Riassumi i risultati in circa 80 parole.", "max_output_tokens": 120 }Chat Completions (modello di ragionamento)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Scrivi cinque opzioni su una sola riga."}], "max_completion_tokens": 100 }Controlli specifici dei modelli GPT-5: verbosity e reasoning.effort
Questi controlli sono disponibili solo sui modelli GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, ecc.). I modelli della serie O e legacy non li supportano.
`verbosity` accetta "low", "medium" (predefinito) o "high". Influisce sul livello di dettaglio, ma non sui limiti rigidi.
{ "model": "gpt-5", "input": "Spiega PageRank a grandi linee.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` controlla quanti token di ragionamento vengono generati prima di produrre una risposta. GPT-5.2 supporta none,low, medium, high,and xhigh. gpt-5.2-pro supporta solo medium, high,and xhigh. I modelli di ragionamento precedenti supportano solo low, medium e high.
{ "model": "gpt-5", "input": "Quanto oro servirebbe per rivestire la Statua della Libertà con uno strato di 1 mm?", "reasoning": { "effort": "minimal" } }Puoi impostare `reasoning.effort` su none per far comportare il modello come un modello non di ragionamento nei casi d'uso sensibili alla latenza.
Fornisci istruzioni specifiche
Richiedi la lunghezza o la forma esatta che desideri. Esempi:
«Elenca esattamente cinque opzioni».
«Scrivi un riepilogo di 50 parole».
«Non più di 100 token. Se ti serve più spazio, scrivi “Mi serve più spazio”»
Usa esempi di lunghezza coerente
Esempi few-shot che corrispondono alla lunghezza desiderata aiutano il modello a continuare lo schema.
Applica sequenze di stop strategiche
Usa stop per interrompere la generazione quando il modello raggiunge un delimitatore o il limite di un elenco numerato.
{ "stop": ["\n###", "6."] }Più candidati
Chat Completions:
nrestituisce più completamenti in una sola chiamata.Responses API:
nnon è supportato; effettua più chiamate se ti serve più di un output.
