OpenAI
Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

Controllare la lunghezza delle risposte dei modelli OpenAI

Scopri come impostare limiti di output per i modelli OpenAI usando impostazioni dei token, prompt chiari, esempi e sequenze di stop.

Aggiornato: 8 days ago

Panoramica

Controllare la lunghezza della risposta di un modello è utile per vari motivi: aiuta a gestire i costi (dato che paghi per token), migliora latenza/prestazioni (le risposte più brevi arrivano più rapidamente) e garantisce la pertinenza evitando output troppo lunghi o prolissi.

Puoi farlo usando limiti di token, impostazioni di ragionamento e verbosity, istruzioni chiare, esempi e sequenze di stop. Per i dettagli più aggiornati e completi, consulta sempre il riferimento API ufficiale su platform.openai.com.

Imposta una lunghezza massima dell'output

Responses API

Usata per i modelli GPT-5 e la maggior parte dei modelli della serie o: usa max_output_tokens per limitare il numero di token che il modello genererà. Per le richieste compaction_trigger, ometti max_output_tokens oppure impostalo almeno su 20000; valori inferiori vengono rifiutati. La Responses API non supporta completamenti multipli (n).

API per il completamento delle chat

Usata per GPT-3.5, GPT-4o legacy e talvolta per la serie o.

  • Per modelli di ragionamento come o3 e o4-mini, usa max_completion_tokens (alias di max_tokens)

  • Per i modelli precedenti/non di ragionamento, max_tokens funziona ancora

  • Supporta stop e n (completamenti multipli).

Nota: non esiste un'impostazione “token minimi”. Se ti serve una lunghezza minima, specificala nel prompt.

Limiti di token per gruppo di modelli

Per limiti di token, dimensioni del contesto e limiti di output aggiornati, consulta la documentazione del modello specifico.

Esempi rapidi

Responses API

{ "model": "gpt-5", "input": "Riassumi i risultati in circa 80 parole.", "max_output_tokens": 120 }

Chat Completions (modello di ragionamento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Scrivi cinque opzioni su una sola riga."}], "max_completion_tokens": 100 }

Controlli specifici dei modelli GPT-5: verbosity e reasoning.effort

Questi controlli sono disponibili solo sui modelli GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, ecc.). I modelli della serie O e legacy non li supportano.

`verbosity` accetta "low", "medium" (predefinito) o "high". Influisce sul livello di dettaglio, ma non sui limiti rigidi.

{ "model": "gpt-5", "input": "Spiega PageRank a grandi linee.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controlla quanti token di ragionamento vengono generati prima di produrre una risposta. GPT-5.2 supporta none,low, medium, high,and xhigh. gpt-5.2-pro supporta solo medium, high,and xhigh. I modelli di ragionamento precedenti supportano solo low, medium e high.

{ "model": "gpt-5", "input": "Quanto oro servirebbe per rivestire la Statua della Libertà con uno strato di 1 mm?", "reasoning": { "effort": "minimal" } }

Puoi impostare `reasoning.effort` su none per far comportare il modello come un modello non di ragionamento nei casi d'uso sensibili alla latenza.

Fornisci istruzioni specifiche

Richiedi la lunghezza o la forma esatta che desideri. Esempi:

  • «Elenca esattamente cinque opzioni».

  • «Scrivi un riepilogo di 50 parole».

  • «Non più di 100 token. Se ti serve più spazio, scrivi “Mi serve più spazio”»

Usa esempi di lunghezza coerente

Esempi few-shot che corrispondono alla lunghezza desiderata aiutano il modello a continuare lo schema.

Applica sequenze di stop strategiche

Usa stop per interrompere la generazione quando il modello raggiunge un delimitatore o il limite di un elenco numerato.

{ "stop": ["\n###", "6."] }

Più candidati

  • Chat Completions: n restituisce più completamenti in una sola chiamata.

  • Responses API: n non è supportato; effettua più chiamate se ti serve più di un output.

Questo articolo è stato utile?