Überblick
Die Länge einer Modellantwort zu steuern, ist aus mehreren Gründen sinnvoll: Es hilft, Kosten zu kontrollieren (da du pro Token zahlst), verbessert Latenz und Performance (kürzere Antworten werden schneller zurückgegeben) und sorgt für Relevanz, weil zu lange oder ausschweifende Ausgaben vermieden werden.
Das erreichst du mit Tokenobergrenzen, Reasoning- und Ausführlichkeitseinstellungen, klaren Anweisungen, Beispielen und Stoppsequenzen. Die aktuellsten und vollständigsten Informationen findest du immer in der offiziellen API-Referenz auf platform.openai.com.
Maximale Ausgabelänge festlegen
Responses API
Wird für GPT-5-Modelle und die meisten Modelle der o-Serie verwendet: Nutze max_output_tokens, um die Anzahl der Token zu begrenzen, die das Modell generiert. Bei compaction_trigger-Anfragen lässt du max_output_tokens entweder weg oder setzt den Wert auf mindestens 20000; kleinere Werte werden abgelehnt. Die Responses API unterstützt keine mehrfachen Completions (n).
Chat Completions API
Wird für ältere GPT-3.5-Modelle, GPT-4o und manchmal Modelle der o-Serie verwendet.
Für Reasoning-Modelle wie o3 und o4-mini verwendest du
max_completion_tokens(Alias vonmax_tokens)Für ältere Modelle bzw. Modelle ohne Reasoning funktioniert
max_tokensweiterhinUnterstützt
stopundn(mehrere Completions).
Hinweis: Es gibt keine Einstellung für „Mindestanzahl an Token“. Wenn du eine Mindestlänge brauchst, gib sie in deinem Prompt an.
Tokenlimits nach Modellgruppe
Aktuelle Tokenlimits, Kontextgrößen und Ausgabeobergrenzen findest du in der Dokumentation des jeweiligen Modells.
Kurze Beispiele
Responses API
{ "model": "gpt-5", "input": "Fasse die Ergebnisse in ca. 80 Wörtern zusammen.", "max_output_tokens": 120 }Chat Completions (Reasoning-Modell)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Schreibe fünf einzeilige Optionen."}], "max_completion_tokens": 100 }GPT-5-modellspezifische Steuerungen: verbosity und reasoning.effort
Diese Steuerungen sind nur bei GPT-5-Modellen verfügbar (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro usw. Modelle der o-Serie und ältere Modelle unterstützen sie nicht.
`verbosity` akzeptiert "low", "medium" (Standard) oder "high". Dies beeinflusst den Detailgrad, aber keine festen Limits.
{ "model": "gpt-5", "input": "Erkläre PageRank in Grundzügen.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` steuert, wie viele Reasoning-Token generiert werden, bevor eine Antwort ausgegeben wird. GPT-5.2 unterstützt none,low, medium, high,and xhigh. gpt-5.2-pro unterstützt nur medium, high,and xhigh. Frühere Reasoning-Modelle unterstützen nur low, medium und high.
{ "model": "gpt-5", "input": "Wie viel Gold bräuchte man, um die Freiheitsstatue mit einer 1 mm dicken Schicht zu überziehen?", "reasoning": { "effort": "minimal" } }Du kannst `reasoning.effort` auf none setzen, damit sich das Modell bei latenzsensiblen Anwendungsfällen wie ein Modell ohne Reasoning verhält.
Konkrete Anweisungen geben
Fordere die genaue Länge oder Form an, die du möchtest. Beispiele:
„Liste genau fünf Optionen auf.“
„Schreibe eine Zusammenfassung mit 50 Wörtern.“
„Nicht mehr als 100 Token. Wenn du mehr Platz brauchst, schreibe: ‚Ich brauche mehr Platz.‘“
Beispiele mit einheitlicher Länge verwenden
Few-Shot-Beispiele, die deiner gewünschten Länge entsprechen, helfen dem Modell, das Muster fortzusetzen.
Strategische Stoppsequenzen einsetzen
Verwende stop, um die Generierung anzuhalten, wenn das Modell ein Trennzeichen oder die Grenze einer nummerierten Liste erreicht.
{ "stop": ["\n###", "6."] }Mehrere Kandidaten
Chat Completions:
ngibt mehrere Completions in einem Aufruf zurück.Responses API:
nwird nicht unterstützt; führe mehrere Aufrufe aus, wenn du mehr als eine Ausgabe benötigst.
