OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

Kontrolowanie długości odpowiedzi modeli OpenAI

Dowiedz się, jak ustawiać limity długości odpowiedzi modeli OpenAI za pomocą ustawień tokenów, jasnych poleceń, przykładów i sekwencji stop.

Zaktualizowano: 3 days ago

Przegląd

Kontrolowanie długości odpowiedzi modelu jest przydatne z kilku powodów: pomaga zarządzać kosztami (ponieważ płacisz za token), poprawia opóźnienia/wydajność (krótsze odpowiedzi są zwracane szybciej) i zapewnia trafność, unikając zbyt długich lub rozwlekłych wyników.

Możesz to osiągnąć za pomocą limitów tokenów, ustawień rozumowania i szczegółowości, jasnych instrukcji, przykładów oraz sekwencji stop. Aby uzyskać najbardziej aktualne i kompletne informacje, zawsze odwołuj się do oficjalnej dokumentacji API na platform.openai.com.

Ustaw maksymalną długość wyjścia

Responses API

Używane dla modeli GPT-5 i większości modeli z serii o: użyj max_output_tokens, aby ograniczyć liczbę tokenów, które model wygeneruje. Obsługuje stop, ale nie obsługuje wielu zakończeń (n).

API zakończenia czatu

Używane dla starszych modeli GPT-3.5, GPT-4o, a czasem także modeli z serii o.

  • W przypadku modeli rozumujących, takich jak o3 i o4-mini, użyj max_completion_tokens (alias dla max_tokens)

  • W przypadku wcześniejszych/modeli nierozumujących nadal działa max_tokens

  • Obsługuje stop i n (wiele zakończeń).

Uwaga: Nie ma ustawienia „minimalna liczba tokenów”. Jeśli potrzebujesz minimalnej długości, określ to w poleceniu.

Limity tokenów według grup modeli

Aby uzyskać aktualne limity tokenów, rozmiary kontekstu i limity wyjścia, zapoznaj się z dokumentacją konkretnego modelu.

Szybkie przykłady

Responses API

{ "model": "gpt-5", "input": "Podsumuj ustalenia w ~80 słowach.", "max_output_tokens": 120 }

Chat Completions (model rozumujący)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Specyficzne ustawienia dla modeli GPT-5: verbosity i reasoning.effort

Te ustawienia są dostępne tylko w modelach GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modele z serii o i starsze modele ich nie obsługują.

verbosity przyjmuje wartości "low", "medium" (domyślnie) lub "high". Wpływa na poziom szczegółowości, ale nie na sztywne limity.

{ "model": "gpt-5", "input": "Wyjaśnij ogólnie, czym jest PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort kontroluje, ile tokenów rozumowania jest generowanych przed udzieleniem odpowiedzi. GPT-5.2 obsługuje none,low, medium, high,and xhigh. gpt-5.2-pro obsługuje tylko medium, high,and xhigh. Wcześniejsze modele rozumujące obsługują tylko low, medium i high.

{ "model": "gpt-5", "input": "Ile złota potrzeba, aby pokryć Statuę Wolności warstwą o grubości 1 mm?", "reasoning": { "effort": "minimal" } }

Możesz ustawić reasoning.effort na none, aby model zachowywał się jak model nierozumujący w zastosowaniach wrażliwych na opóźnienia.

Podaj konkretne instrukcje

Poproś o dokładną długość lub formę, jakiej oczekujesz. Przykłady:

  • „Wypisz dokładnie pięć opcji.”

  • „Napisz 50-wyrazowe podsumowanie.”

  • „Nie więcej niż 100 tokenów. Jeśli potrzebujesz więcej, powiedz: „Potrzeba więcej miejsca”.”

Używaj przykładów o spójnej długości

Przykłady kilka przykładów zgodne z pożądaną długością pomagają modelowi kontynuować wzorzec.

Stosuj strategiczne sekwencje stop

Użyj stop, aby zatrzymać generowanie, gdy model osiągnie separator lub granicę listy numerowanej.

{ "stop": ["
###", "6."] }

Wiele kandydatów

  • Chat Completions: n zwraca wiele zakończeń w jednym wywołaniu.

  • Responses API: n nie jest obsługiwane; wykonaj wiele wywołań, jeśli potrzebujesz więcej niż jednego wyniku.

Czy ten artykuł był pomocny?