Prezentare generală
Controlul lungimii răspunsului unui model este util din mai multe motive: ajută la gestionarea costurilor (deoarece plătiți per token), îmbunătățește latența/performanța (răspunsurile mai scurte sunt returnate mai rapid) și asigură relevanța prin evitarea rezultatelor prea lungi sau prea detaliate.
Puteți obține acest lucru folosind limite de tokeni, setări de raţionament și verbositate, instrucțiuni clare, exemple și secvențe de oprire. Pentru cele mai actuale și complete detalii, consultați întotdeauna referința API oficială pe platform.openai.com.
Setați o lungime maximă pentru ieșire
API Responses
Folosit pentru modelele GPT-5 și majoritatea modelelor din seria o: utilizați max_output_tokens pentru a limita numărul de tokeni pe care modelul îl va genera. Acceptă stop, dar nu acceptă completări multiple (n).
API pentru completarea discuțiilor
Folosit pentru GPT-3.5, GPT-4o și uneori seria o, din generațiile anterioare.
Pentru modele de raţionament precum o3 și o4-mini, folosiți
max_completion_tokens(alias pentrumax_tokens)Pentru modelele anterioare/fără raţionament,
max_tokensfuncționează în continuareAcceptă
stopșin(completări multiple).
Notă: Nu există nicio setare pentru „număr minim de tokeni”. Dacă aveți nevoie de o lungime minimă, specificați-o în solicitare.
Limite de tokeni după grupul de modele
Pentru limite actualizate de tokeni, dimensiuni de context și limite de ieșire, consultați documentația modelului specific.
Exemple rapide
API Responses
{ "model": "gpt-5", "input": "Rezumați concluziile în ~80 de cuvinte.", "max_output_tokens": 120 }Chat Completions (model de raţionament)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Controale specifice modelelor GPT-5: verbosity și reasoning.effort
Aceste controale sunt disponibile doar pentru modelele GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro etc.). Modelele din seria o și cele vechi nu le acceptă.
verbosity acceptă "low", "medium" (implicit) sau "high". Influențează nivelul de detaliu, dar nu limitele stricte.
{ "model": "gpt-5", "input": "Explicați PageRank la nivel înalt.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controlează câți tokeni de raţionament sunt generați înainte de a produce un răspuns. GPT-5.2 acceptă none,low, medium, high,and xhigh. gpt-5.2-pro acceptă doar medium, high,and xhigh. Modelele de raţionament anterioare acceptă doar low, medium și high.
{ "model": "gpt-5", "input": "Cât aur ar fi necesar pentru a acoperi Statuia Libertății cu un strat de 1 mm?", "reasoning": { "effort": "minimal" } }Puteți seta reasoning.effort la none pentru ca modelul să se comporte ca un model fără raţionament în cazuri de utilizare sensibile la latență.
Furnizați instrucțiuni specifice
Cereți lungimea sau forma exactă pe care o doriți. Exemple:
„Enumerați exact cinci opțiuni.”
„Scrieți un rezumat de 50 de cuvinte.”
„Nu mai mult de 100 de tokeni. Dacă aveți nevoie de mai mult, spuneți «Este nevoie de mai mult spațiu.»”
Folosiți exemple cu lungime consecventă
Exemplele cu câteva exemple care se potrivesc cu lungimea dorită ajută modelul să continue tiparul.
Aplicați secvențe de oprire strategice
Folosiți stop pentru a opri generarea când modelul ajunge la un delimitator sau la limita unei liste numerotate.
{ "stop": ["
###", "6."] }Mai multe variante
Chat Completions:
nreturnează mai multe completări într-un singur apel.API Responses:
nnu este acceptat; efectuați mai multe apeluri dacă aveți nevoie de mai mult de o ieșire.
