Aflați cum să setați limite de ieșire pentru modelele OpenAI folosind setări pentru tokeni, solicitări clare, exemple și secvențe de oprire.

Prezentare generală

Controlarea lungimii răspunsului unui model este utilă din mai multe motive: ajută la gestionarea costurilor (deoarece plătești per token), îmbunătățește latența/performanța (răspunsurile mai scurte sunt returnate mai rapid) și asigură relevanța prin evitarea ieșirilor prea lungi sau prea detaliate.

Poți realiza acest lucru folosind plafoane de tokeni, setări de raţionament și nivel de detaliu, instrucțiuni clare, exemple și secvențe de oprire. Pentru cele mai recente și complete detalii, consultă întotdeauna referința oficială a API-ului de pe platform.openai.com.

Setează o lungime maximă a ieșirii

API-ul Responses

Folosit pentru modelele GPT-5 și majoritatea modelelor din seria o: folosește max_output_tokens pentru a limita numărul de tokeni pe care modelul îi va genera. Pentru cererile compaction_trigger, fie omite max_output_tokens, fie setează-l la cel puțin 20000; valorile mai mici sunt respinse. API-ul Responses nu acceptă completări multiple (n).

API pentru completarea discuțiilor

Folosit pentru modelele vechi GPT-3.5, GPT-4o și uneori pentru seria o.

Pentru modelele de raţionament precum o3 și o4-mini, folosește max_completion_tokens (alias pentru max_tokens)
Pentru modelele anterioare/fără raţionament, max_tokens funcționează în continuare
Acceptă stop și n (completări multiple).

Notă: Nu există nicio setare pentru „număr minim de tokeni”. Dacă aveți nevoie de o lungime minimă, specificați-o în solicitare.

Limite de tokeni după grupul de modele

Pentru limite de tokeni, dimensiuni ale contextului și plafoane de ieșire actualizate, consultă documentația modelului specific.

Exemple rapide

API-ul Responses

{ "model": "gpt-5", "input": "Rezumați concluziile în ~80 de cuvinte.", "max_output_tokens": 120 }

Completări de chat (model de raţionament)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controale specifice modelelor GPT-5: `verbosity` și `reasoning.effort`

Aceste controale sunt disponibile doar pe modelele GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc. Modelele din seria O și modelele vechi nu le acceptă.

`verbosity` acceptă "low", "medium" (implicit) sau "high". Influențează nivelul de detaliu, dar nu limitele stricte.

{ "model": "gpt-5", "input": "Explicați PageRank la nivel înalt.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` controlează câți tokeni de raţionament sunt generați înainte de producerea unui răspuns. GPT-5.2 acceptă none,low, medium, high,and xhigh. gpt-5.2-pro acceptă doar medium, high,and xhigh. Modelele de raţionament anterioare acceptă doar low, medium și high.

{ "model": "gpt-5", "input": "Cât aur ar fi necesar pentru a acoperi Statuia Libertății cu un strat de 1 mm?", "reasoning": { "effort": "minimal" } }

Poți seta `reasoning.effort` la none pentru ca modelul să se comporte ca un model fără raţionament în cazuri de utilizare sensibile la latență.

Oferă instrucțiuni specifice

Cere lungimea sau forma exactă pe care o dorești. Exemple:

„Listează exact cinci opțiuni.”
„Scrie un rezumat de 50 de cuvinte.”
„Nu mai mult de 100 de tokeni. Dacă ai nevoie de mai mult spațiu, spune «Am nevoie de mai mult spațiu».”

Folosește exemple cu lungime consecventă

Exemplele cu câteva exemple care corespund lungimii dorite ajută modelul să continue tiparul.

Aplică strategic secvențe de oprire

Folosește stop pentru a opri generarea când modelul ajunge la un delimitator sau la limita unei liste numerotate.

{ "stop": ["
###", "6."] }

Mai mulți candidați

Completări de chat: n returnează mai multe completări într-un singur apel.
API-ul Responses: n nu este acceptat; efectuează mai multe apeluri dacă ai nevoie de mai multe ieșiri.

Controlul lungimii răspunsurilor modelelor OpenAI

Prezentare generală

Setează o lungime maximă a ieșirii

API-ul Responses

API pentru completarea discuțiilor

Limite de tokeni după grupul de modele

Exemple rapide

Controale specifice modelelor GPT-5: `verbosity` și `reasoning.effort`

Oferă instrucțiuni specifice

Folosește exemple cu lungime consecventă

Aplică strategic secvențe de oprire

Mai mulți candidați

A fost util acest articol?

Controlul lungimii răspunsurilor modelelor OpenAI

Prezentare generală

Setează o lungime maximă a ieșirii

API-ul Responses

API pentru completarea discuțiilor

Limite de tokeni după grupul de modele

Exemple rapide

Controale specifice modelelor GPT-5: verbosity și reasoning.effort

Oferă instrucțiuni specifice

Folosește exemple cu lungime consecventă

Aplică strategic secvențe de oprire

Mai mulți candidați

A fost util acest articol?

Controale specifice modelelor GPT-5: `verbosity` și `reasoning.effort`