OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Länge von Antworten von OpenAI-Modellen steuern

Erfahre, wie du Ausgabelimits für OpenAI-Modelle mit Token-Einstellungen, klaren Prompts, Beispielen und Stoppsequenzen festlegst.

Aktualisiert: 2 days ago

Überblick

Die Länge einer Modellantwort zu steuern, ist aus mehreren Gründen sinnvoll: Es hilft, Kosten zu kontrollieren (da du pro Token zahlst), verbessert Latenz und Performance (kürzere Antworten werden schneller zurückgegeben) und sorgt für Relevanz, weil zu lange oder ausschweifende Ausgaben vermieden werden.

Das erreichst du mit Tokenobergrenzen, Reasoning- und Ausführlichkeitseinstellungen, klaren Anweisungen, Beispielen und Stoppsequenzen. Die aktuellsten und vollständigsten Informationen findest du immer in der offiziellen API-Referenz auf platform.openai.com.

Maximale Ausgabelänge festlegen

Responses API

Wird für GPT-5-Modelle und die meisten Modelle der o-Serie verwendet: Nutze max_output_tokens, um die Anzahl der Token zu begrenzen, die das Modell generiert. Bei compaction_trigger-Anfragen lässt du max_output_tokens entweder weg oder setzt den Wert auf mindestens 20000; kleinere Werte werden abgelehnt. Die Responses API unterstützt keine mehrfachen Completions (n).

Chat Completions API

Wird für ältere GPT-3.5-Modelle, GPT-4o und manchmal Modelle der o-Serie verwendet.

  • Für Reasoning-Modelle wie o3 und o4-mini verwendest du max_completion_tokens (Alias von max_tokens)

  • Für ältere Modelle bzw. Modelle ohne Reasoning funktioniert max_tokens weiterhin

  • Unterstützt stop und n (mehrere Completions).

Hinweis: Es gibt keine Einstellung für „Mindestanzahl an Token“. Wenn du eine Mindestlänge brauchst, gib sie in deinem Prompt an.

Tokenlimits nach Modellgruppe

Aktuelle Tokenlimits, Kontextgrößen und Ausgabeobergrenzen findest du in der Dokumentation des jeweiligen Modells.

Kurze Beispiele

Responses API

{ "model": "gpt-5", "input": "Fasse die Ergebnisse in ca. 80 Wörtern zusammen.", "max_output_tokens": 120 }

Chat Completions (Reasoning-Modell)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Schreibe fünf einzeilige Optionen."}], "max_completion_tokens": 100 }

GPT-5-modellspezifische Steuerungen: verbosity und reasoning.effort

Diese Steuerungen sind nur bei GPT-5-Modellen verfügbar (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro usw. Modelle der o-Serie und ältere Modelle unterstützen sie nicht.

`verbosity` akzeptiert "low", "medium" (Standard) oder "high". Dies beeinflusst den Detailgrad, aber keine festen Limits.

{ "model": "gpt-5", "input": "Erkläre PageRank in Grundzügen.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` steuert, wie viele Reasoning-Token generiert werden, bevor eine Antwort ausgegeben wird. GPT-5.2 unterstützt none,low, medium, high,and xhigh. gpt-5.2-pro unterstützt nur medium, high,and xhigh. Frühere Reasoning-Modelle unterstützen nur low, medium und high.

{ "model": "gpt-5", "input": "Wie viel Gold bräuchte man, um die Freiheitsstatue mit einer 1 mm dicken Schicht zu überziehen?", "reasoning": { "effort": "minimal" } }

Du kannst `reasoning.effort` auf none setzen, damit sich das Modell bei latenzsensiblen Anwendungsfällen wie ein Modell ohne Reasoning verhält.

Konkrete Anweisungen geben

Fordere die genaue Länge oder Form an, die du möchtest. Beispiele:

  • „Liste genau fünf Optionen auf.“

  • „Schreibe eine Zusammenfassung mit 50 Wörtern.“

  • „Nicht mehr als 100 Token. Wenn du mehr Platz brauchst, schreibe: ‚Ich brauche mehr Platz.‘“

Beispiele mit einheitlicher Länge verwenden

Few-Shot-Beispiele, die deiner gewünschten Länge entsprechen, helfen dem Modell, das Muster fortzusetzen.

Strategische Stoppsequenzen einsetzen

Verwende stop, um die Generierung anzuhalten, wenn das Modell ein Trennzeichen oder die Grenze einer nummerierten Liste erreicht.

{ "stop": ["\n###", "6."] }

Mehrere Kandidaten

  • Chat Completions: n gibt mehrere Completions in einem Aufruf zurück.

  • Responses API: n wird nicht unterstützt; führe mehrere Aufrufe aus, wenn du mehr als eine Ausgabe benötigst.

War dieser Artikel hilfreich?