Przegląd
Kontrolowanie długości odpowiedzi modelu jest przydatne z kilku powodów: pomaga zarządzać kosztami (ponieważ płacisz za token), poprawia opóźnienia/wydajność (krótsze odpowiedzi są zwracane szybciej) i zapewnia trafność, unikając zbyt długich lub rozwlekłych wyników.
Możesz to osiągnąć za pomocą limitów tokenów, ustawień rozumowania i szczegółowości, jasnych instrukcji, przykładów oraz sekwencji stop. Aby uzyskać najbardziej aktualne i kompletne informacje, zawsze odwołuj się do oficjalnej dokumentacji API na platform.openai.com.
Ustaw maksymalną długość wyjścia
Responses API
Używane dla modeli GPT-5 i większości modeli z serii o: użyj max_output_tokens, aby ograniczyć liczbę tokenów, które model wygeneruje. Obsługuje stop, ale nie obsługuje wielu zakończeń (n).
API zakończenia czatu
Używane dla starszych modeli GPT-3.5, GPT-4o, a czasem także modeli z serii o.
W przypadku modeli rozumujących, takich jak o3 i o4-mini, użyj
max_completion_tokens(alias dlamax_tokens)W przypadku wcześniejszych/modeli nierozumujących nadal działa
max_tokensObsługuje
stopin(wiele zakończeń).
Uwaga: Nie ma ustawienia „minimalna liczba tokenów”. Jeśli potrzebujesz minimalnej długości, określ to w poleceniu.
Limity tokenów według grup modeli
Aby uzyskać aktualne limity tokenów, rozmiary kontekstu i limity wyjścia, zapoznaj się z dokumentacją konkretnego modelu.
Szybkie przykłady
Responses API
{ "model": "gpt-5", "input": "Podsumuj ustalenia w ~80 słowach.", "max_output_tokens": 120 }Chat Completions (model rozumujący)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Specyficzne ustawienia dla modeli GPT-5: verbosity i reasoning.effort
Te ustawienia są dostępne tylko w modelach GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modele z serii o i starsze modele ich nie obsługują.
verbosity przyjmuje wartości "low", "medium" (domyślnie) lub "high". Wpływa na poziom szczegółowości, ale nie na sztywne limity.
{ "model": "gpt-5", "input": "Wyjaśnij ogólnie, czym jest PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort kontroluje, ile tokenów rozumowania jest generowanych przed udzieleniem odpowiedzi. GPT-5.2 obsługuje none,low, medium, high,and xhigh. gpt-5.2-pro obsługuje tylko medium, high,and xhigh. Wcześniejsze modele rozumujące obsługują tylko low, medium i high.
{ "model": "gpt-5", "input": "Ile złota potrzeba, aby pokryć Statuę Wolności warstwą o grubości 1 mm?", "reasoning": { "effort": "minimal" } }Możesz ustawić reasoning.effort na none, aby model zachowywał się jak model nierozumujący w zastosowaniach wrażliwych na opóźnienia.
Podaj konkretne instrukcje
Poproś o dokładną długość lub formę, jakiej oczekujesz. Przykłady:
„Wypisz dokładnie pięć opcji.”
„Napisz 50-wyrazowe podsumowanie.”
„Nie więcej niż 100 tokenów. Jeśli potrzebujesz więcej, powiedz: „Potrzeba więcej miejsca”.”
Używaj przykładów o spójnej długości
Przykłady kilka przykładów zgodne z pożądaną długością pomagają modelowi kontynuować wzorzec.
Stosuj strategiczne sekwencje stop
Użyj stop, aby zatrzymać generowanie, gdy model osiągnie separator lub granicę listy numerowanej.
{ "stop": ["
###", "6."] }Wiele kandydatów
Chat Completions:
nzwraca wiele zakończeń w jednym wywołaniu.Responses API:
nnie jest obsługiwane; wykonaj wiele wywołań, jeśli potrzebujesz więcej niż jednego wyniku.
