Dowiedz się, jak ustawiać limity długości odpowiedzi modeli OpenAI za pomocą ustawień tokenów, jasnych poleceń, przykładów i sekwencji stop.

Omówienie

Kontrolowanie długości odpowiedzi modelu jest przydatne z kilku powodów: pomaga zarządzać kosztami (ponieważ płacisz za token), poprawia opóźnienia i wydajność (krótsze odpowiedzi są zwracane szybciej) oraz zapewnia trafność, zapobiegając zbyt długim lub rozwlekłym wynikom.

Możesz to osiągnąć za pomocą limitów tokenów, ustawień rozumowania i szczegółowości, jasnych instrukcji, przykładów oraz sekwencji zatrzymania. Najbardziej aktualne i kompletne informacje zawsze znajdziesz w oficjalnej dokumentacji API na platform.openai.com.

Ustaw maksymalną długość danych wyjściowych

Interfejs API Responses

Używany w modelach GPT-5 i większości modeli z serii o: użyj max_output_tokens, aby ograniczyć liczbę tokenów generowanych przez model. W przypadku żądań compaction_trigger pomiń max_output_tokens albo ustaw je na co najmniej 20000; mniejsze wartości są odrzucane. Interfejs API Responses nie obsługuje wielu zakończeń (n).

API zakończenia czatu

Używane w przypadku starszych modeli GPT-3.5 i GPT-4o, a czasem modeli z serii o.

W przypadku modeli rozumujących, takich jak o3 i o4-mini, użyj max_completion_tokens (aliasu max_tokens)
W przypadku wcześniejszych modeli lub modeli nierozumujących max_tokens nadal działa
Obsługuje stop i n (wiele zakończeń).

Uwaga: Nie ma ustawienia „minimalna liczba tokenów”. Jeśli potrzebujesz minimalnej długości, określ to w poleceniu.

Limity tokenów według grup modeli

Aktualne limity tokenów, rozmiary kontekstu i limity danych wyjściowych znajdziesz w dokumentacji konkretnego modelu.

Szybkie przykłady

Interfejs API Responses

{ "model": "gpt-5", "input": "Podsumuj ustalenia w ~80 słowach.", "max_output_tokens": 120 }

Zakończenia czatu (model rozumujący)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Ustawienia właściwe dla modeli GPT-5: `verbosity` i `reasoning.effort`

Te ustawienia są dostępne tylko w modelach GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modele serii O i starsze modele ich nie obsługują.

`verbosity` przyjmuje wartości "low", "medium" (domyślnie) lub "high". Wpływa na poziom szczegółowości, ale nie na sztywne limity.

{ "model": "gpt-5", "input": "Wyjaśnij ogólnie, czym jest PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` określa, ile tokenów rozumowania jest generowanych przed przygotowaniem odpowiedzi. GPT-5.2 obsługuje none,low, medium, high,and xhigh. gpt-5.2-pro obsługuje tylko medium, high,and xhigh. Wcześniejsze modele rozumujące obsługują tylko low, medium i high.

{ "model": "gpt-5", "input": "Ile złota potrzeba, aby pokryć Statuę Wolności warstwą o grubości 1 mm?", "reasoning": { "effort": "minimal" } }

Możesz ustawić `reasoning.effort` na none, aby model działał jak model nierozumujący w zastosowaniach wrażliwych na opóźnienia.

Podaj konkretne instrukcje

Poproś o dokładnie taką długość lub formę, jakiej potrzebujesz. Przykłady:

„Wymień dokładnie pięć opcji”.
„Napisz podsumowanie na 50 słów”.
„Nie więcej niż 100 tokenów. Jeśli potrzebujesz więcej miejsca, napisz: ‚Potrzebuję więcej miejsca.’”

Używaj przykładów o spójnej długości

Kilka przykładów dopasowanych do oczekiwanej długości pomaga modelowi kontynuować wzorzec.

Stosuj strategiczne sekwencje zatrzymania

Użyj stop, aby zatrzymać generowanie, gdy model dotrze do separatora lub granicy listy numerowanej.

{ "stop": ["
###", "6."] }

Wiele wariantów

Zakończenia czatu: n zwraca wiele zakończeń w jednym wywołaniu.
Interfejs API Responses: n nie jest obsługiwane; jeśli potrzebujesz więcej niż jednego wyniku, wykonaj wiele wywołań.

Kontrolowanie długości odpowiedzi modeli OpenAI

Omówienie

Ustaw maksymalną długość danych wyjściowych

Interfejs API Responses

API zakończenia czatu

Limity tokenów według grup modeli

Szybkie przykłady

Ustawienia właściwe dla modeli GPT-5: `verbosity` i `reasoning.effort`

Podaj konkretne instrukcje

Używaj przykładów o spójnej długości

Stosuj strategiczne sekwencje zatrzymania

Wiele wariantów

Czy ten artykuł był pomocny?

Kontrolowanie długości odpowiedzi modeli OpenAI

Omówienie

Ustaw maksymalną długość danych wyjściowych

Interfejs API Responses

API zakończenia czatu

Limity tokenów według grup modeli

Szybkie przykłady

Ustawienia właściwe dla modeli GPT-5: verbosity i reasoning.effort

Podaj konkretne instrukcje

Używaj przykładów o spójnej długości

Stosuj strategiczne sekwencje zatrzymania

Wiele wariantów

Czy ten artykuł był pomocny?

Ustawienia właściwe dla modeli GPT-5: `verbosity` i `reasoning.effort`