Überblick
Die Länge einer Modellantwort zu steuern ist aus mehreren Gründen sinnvoll: Es hilft, Kosten zu kontrollieren (da pro Token abgerechnet wird), verbessert Latenz/Performance (kürzere Antworten kommen schneller zurück) und stellt Relevanz sicher, indem übermäßig lange oder ausschweifende Ausgaben vermieden werden.
Das erreichst du mit Token-Caps, Reasoning- und Verbosity-Einstellungen, klaren Anweisungen, Beispielen und Stop-Sequenzen. Die aktuellsten und vollständigsten Details findest du immer in der offiziellen API-Referenz auf platform.openai.com.
Maximale Ausgabelänge festlegen
Responses API
Für GPT-5-Modelle und die meisten o-series-Modelle: Verwende max_output_tokens, um die Anzahl der Tokens zu begrenzen, die das Modell erzeugt. Unterstützt stop, aber unterstützt nicht mehrere Completions (n).
Chat Completions API
Wird für Legacy GPT-3.5, GPT-4o und teilweise für o-series verwendet.
Für Reasoning-Modelle wie o3 und o4-mini: Verwende
max_completion_tokens(Alias vonmax_tokens)Für frühere/nicht-reasoning Modelle funktioniert
max_tokensweiterhinUnterstützt
stopundn(mehrere Completions).
Hinweis: Es gibt keine Einstellung für „Mindest-Tokens“. Wenn du eine Mindestlänge brauchst, gib sie in deinem Prompt an.
Token-Limits nach Modellgruppe
Aktuelle Token-Limits, Kontextgrößen und Output-Caps findest du in der jeweiligen Modelldokumentation.
Schnelle Beispiele
Responses API
{ "model": "gpt-5", "input": "Fasse die Ergebnisse in ~80 Wörtern zusammen.", "max_output_tokens": 120 }Chat Completions (Reasoning-Modell)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Schreibe fünf einzeilige Optionen."}], "max_completion_tokens": 100 }Spezifische Steuerungen für GPT-5-Modelle: verbosity und reasoning.effort
Diese Steuerungen sind nur für GPT-5-Modelle verfügbar (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro usw.). O-series- und Legacy-Modelle unterstützen sie nicht.
verbosity akzeptiert "low", "medium" (Standard) oder "high". Es beeinflusst den Detailgrad, aber keine harten Limits.
{ "model": "gpt-5", "input": "Erkläre PageRank auf hoher Ebene.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort steuert, wie viele Reasoning-Tokens erzeugt werden, bevor eine Antwort ausgegeben wird. GPT-5.2 unterstützt none,low, medium, high,and xhigh. gpt-5.2-pro unterstützt nur medium, high,and xhigh. Frühere Reasoning-Modelle unterstützen nur low, medium und high.
{ "model": "gpt-5", "input": "Wie viel Gold bräuchte man, um die Freiheitsstatue mit einer 1mm-Schicht zu überziehen?", "reasoning": { "effort": "minimal" } }Du kannst reasoning.effort auf none setzen, damit sich das Modell für latenzsensitive Anwendungsfälle wie ein Nicht-Reasoning-Modell verhält.
Gib konkrete Anweisungen
Fordere die exakte Länge oder Form an, die du willst. Beispiele:
„Liste genau fünf Optionen auf.“
„Schreibe eine Zusammenfassung mit 50 Wörtern.“
„Nicht mehr als 100 Tokens. Wenn du mehr brauchst, sag: ‚Mehr Platz nötig.‘“
Nutze Beispiele mit konsistenter Länge
Few-shot-Beispiele, die deiner gewünschten Länge entsprechen, helfen dem Modell, das Muster fortzusetzen.
Setze strategische Stop-Sequenzen ein
Verwende stop, um die Generierung zu beenden, wenn das Modell ein Trennzeichen oder das Ende einer nummerierten Liste erreicht.
{ "stop": ["\n###", "6."] }Mehrere Kandidaten
Chat Completions:
ngibt mehrere Completions in einem Aufruf zurück.Responses API:
nwird nicht unterstützt; führe mehrere Aufrufe aus, wenn du mehr als eine Ausgabe brauchst.
