OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Steuerung der Länge von Antworten von OpenAI-Modellen

Erfahre, wie du Ausgabelimits für OpenAI-Modelle mit Token-Einstellungen, klaren Prompts, Beispielen und Stop-Sequenzen festlegst.

Aktualisiert: 3 days ago

Überblick

Die Länge einer Modellantwort zu steuern ist aus mehreren Gründen sinnvoll: Es hilft, Kosten zu kontrollieren (da pro Token abgerechnet wird), verbessert Latenz/Performance (kürzere Antworten kommen schneller zurück) und stellt Relevanz sicher, indem übermäßig lange oder ausschweifende Ausgaben vermieden werden.

Das erreichst du mit Token-Caps, Reasoning- und Verbosity-Einstellungen, klaren Anweisungen, Beispielen und Stop-Sequenzen. Die aktuellsten und vollständigsten Details findest du immer in der offiziellen API-Referenz auf platform.openai.com.

Maximale Ausgabelänge festlegen

Responses API

Für GPT-5-Modelle und die meisten o-series-Modelle: Verwende max_output_tokens, um die Anzahl der Tokens zu begrenzen, die das Modell erzeugt. Unterstützt stop, aber unterstützt nicht mehrere Completions (n).

Chat Completions API

Wird für Legacy GPT-3.5, GPT-4o und teilweise für o-series verwendet.

  • Für Reasoning-Modelle wie o3 und o4-mini: Verwende max_completion_tokens (Alias von max_tokens)

  • Für frühere/nicht-reasoning Modelle funktioniert max_tokens weiterhin

  • Unterstützt stop und n (mehrere Completions).

Hinweis: Es gibt keine Einstellung für „Mindest-Tokens“. Wenn du eine Mindestlänge brauchst, gib sie in deinem Prompt an.

Token-Limits nach Modellgruppe

Aktuelle Token-Limits, Kontextgrößen und Output-Caps findest du in der jeweiligen Modelldokumentation.

Schnelle Beispiele

Responses API

{ "model": "gpt-5", "input": "Fasse die Ergebnisse in ~80 Wörtern zusammen.", "max_output_tokens": 120 }

Chat Completions (Reasoning-Modell)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Schreibe fünf einzeilige Optionen."}], "max_completion_tokens": 100 }

Spezifische Steuerungen für GPT-5-Modelle: verbosity und reasoning.effort

Diese Steuerungen sind nur für GPT-5-Modelle verfügbar (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro usw.). O-series- und Legacy-Modelle unterstützen sie nicht.

verbosity akzeptiert "low", "medium" (Standard) oder "high". Es beeinflusst den Detailgrad, aber keine harten Limits.

{ "model": "gpt-5", "input": "Erkläre PageRank auf hoher Ebene.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort steuert, wie viele Reasoning-Tokens erzeugt werden, bevor eine Antwort ausgegeben wird. GPT-5.2 unterstützt none,low, medium, high,and xhigh. gpt-5.2-pro unterstützt nur medium, high,and xhigh. Frühere Reasoning-Modelle unterstützen nur low, medium und high.

{ "model": "gpt-5", "input": "Wie viel Gold bräuchte man, um die Freiheitsstatue mit einer 1mm-Schicht zu überziehen?", "reasoning": { "effort": "minimal" } }

Du kannst reasoning.effort auf none setzen, damit sich das Modell für latenzsensitive Anwendungsfälle wie ein Nicht-Reasoning-Modell verhält.

Gib konkrete Anweisungen

Fordere die exakte Länge oder Form an, die du willst. Beispiele:

  • „Liste genau fünf Optionen auf.“

  • „Schreibe eine Zusammenfassung mit 50 Wörtern.“

  • „Nicht mehr als 100 Tokens. Wenn du mehr brauchst, sag: ‚Mehr Platz nötig.‘“

Nutze Beispiele mit konsistenter Länge

Few-shot-Beispiele, die deiner gewünschten Länge entsprechen, helfen dem Modell, das Muster fortzusetzen.

Setze strategische Stop-Sequenzen ein

Verwende stop, um die Generierung zu beenden, wenn das Modell ein Trennzeichen oder das Ende einer nummerierten Liste erreicht.

{ "stop": ["\n###", "6."] }

Mehrere Kandidaten

  • Chat Completions: n gibt mehrere Completions in einem Aufruf zurück.

  • Responses API: n wird nicht unterstützt; führe mehrere Aufrufe aus, wenn du mehr als eine Ausgabe brauchst.

War dieser Artikel hilfreich?