개요
모델 응답 길이를 제어하면 여러모로 유용합니다. 토큰당 비용이 청구되므로 비용 관리에 도움이 되고, 짧은 응답은 더 빠르게 반환되어 지연 시간과 성능이 개선되며, 지나치게 길거나 장황한 출력을 피해서 관련성을 유지할 수 있습니다.
토큰 상한, 추론 및 자세함 설정, 명확한 지침, 예시, 중지 시퀀스를 사용해 이를 달성할 수 있습니다. 가장 최신의 완전한 세부 정보는 항상 platform.openai.com의 공식 API 참조를 확인하세요.
최대 출력 길이 설정
Responses API
GPT-5 모델과 대부분의 o-series 모델에 사용됩니다. 모델이 생성할 토큰 수에 상한을 두려면 max_output_tokens를 사용하세요. compaction_trigger 요청의 경우 max_output_tokens를 생략하거나 최소 20000으로 설정하세요. 더 작은 값은 거부됩니다. Responses API는 여러 완성(n)을 지원하지 않습니다.
Chat Completions API
레거시 GPT-3.5, GPT-4o, 그리고 경우에 따라 o-series에 사용됩니다.
o3 및 o4-mini 같은 추론 모델에는
max_completion_tokens(max_tokens의 별칭)를 사용하세요.이전 모델이나 비추론 모델에는
max_tokens가 여전히 작동합니다.stop및n(여러 완성)을 지원합니다.
참고: “최소 토큰” 설정은 없습니다. 최소 길이가 필요하면 프롬프트에 명시하세요.
모델 그룹별 토큰 한도
최신 토큰 한도, 컨텍스트 크기, 출력 상한은 특정 모델 문서를 참조하세요.
빠른 예시
Responses API
{ "model": "gpt-5", "input": "조사 결과를 약 80단어로 요약하세요.", "max_output_tokens": 120 }Chat Completions(추론 모델)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "한 줄짜리 선택지 5개를 써줘."}], "max_completion_tokens": 100 }GPT-5 모델 전용 컨트롤: verbosity 및 reasoning.effort
이 컨트롤은 GPT-5 모델에서만 사용할 수 있습니다(gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro 등). O-series 및 레거시 모델은 이를 지원하지 않습니다.
`verbosity`는 "low", "medium"(기본값) 또는 "high"를 허용합니다. 세부 정보 수준에는 영향을 주지만, 엄격한 한도에는 영향을 주지 않습니다.
{ "model": "gpt-5", "input": "PageRank를 개략적으로 설명하세요.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort`는 답변을 생성하기 전에 생성되는 추론 토큰 수를 제어합니다. GPT-5.2는 none,low, medium, high,and xhigh를 지원합니다. gpt-5.2-pro는 medium, high,and xhigh만 지원합니다. 이전 추론 모델은 low, medium, high만 지원합니다.
{ "model": "gpt-5", "input": "자유의 여신상을 1mm 두께로 금으로 도금하려면 금이 얼마나 필요할까요?", "reasoning": { "effort": "minimal" } }지연 시간에 민감한 사용 사례에서 모델이 비추론 모델처럼 동작하도록 `reasoning.effort`를 none으로 설정할 수 있습니다.
구체적인 지침 제공
원하는 정확한 길이나 형식을 요청하세요. 예시:
“옵션을 정확히 5개 나열하세요.”
“50단어 요약문을 작성하세요.”
“100토큰을 넘지 않게 작성하세요. 더 필요하면 ‘공간이 더 필요합니다.’라고 말하세요.”
일관된 길이의 예시 사용
원하는 길이와 맞는 퓨샷 예시는 모델이 그 패턴을 이어가는 데 도움이 됩니다.
전략적인 중지 시퀀스 적용
모델이 구분 기호나 번호 매긴 목록의 경계에 도달했을 때 생성을 중단하려면 stop을 사용하세요.
{ "stop": ["\n###", "6."] }여러 후보
Chat Completions:
n은 한 번의 호출에서 여러 완성을 반환합니다.Responses API:
n은 지원되지 않습니다. 출력이 두 개 이상 필요하면 여러 번 호출하세요.
