토큰 설정, 명확한 프롬프트, 예시, 중지 시퀀스를 사용해 OpenAI 모델의 출력 한도를 설정하는 방법을 알아보세요.

개요

모델 응답 길이를 제어하면 여러모로 유용합니다. 토큰당 비용이 청구되므로 비용 관리에 도움이 되고, 짧은 응답은 더 빠르게 반환되어 지연 시간과 성능이 개선되며, 지나치게 길거나 장황한 출력을 피해서 관련성을 유지할 수 있습니다.

토큰 상한, 추론 및 자세함 설정, 명확한 지침, 예시, 중지 시퀀스를 사용해 이를 달성할 수 있습니다. 가장 최신의 완전한 세부 정보는 항상 platform.openai.com의 공식 API 참조를 확인하세요.

최대 출력 길이 설정

Responses API

GPT-5 모델과 대부분의 o-series 모델에 사용됩니다. 모델이 생성할 토큰 수에 상한을 두려면 max_output_tokens를 사용하세요. compaction_trigger 요청의 경우 max_output_tokens를 생략하거나 최소 20000으로 설정하세요. 더 작은 값은 거부됩니다. Responses API는 여러 완성(n)을 지원하지 않습니다.

Chat Completions API

레거시 GPT-3.5, GPT-4o, 그리고 경우에 따라 o-series에 사용됩니다.

o3 및 o4-mini 같은 추론 모델에는 max_completion_tokens(max_tokens의 별칭)를 사용하세요.
이전 모델이나 비추론 모델에는 max_tokens가 여전히 작동합니다.
stop 및 n(여러 완성)을 지원합니다.

참고: “최소 토큰” 설정은 없습니다. 최소 길이가 필요하면 프롬프트에 명시하세요.

모델 그룹별 토큰 한도

최신 토큰 한도, 컨텍스트 크기, 출력 상한은 특정 모델 문서를 참조하세요.

빠른 예시

Responses API

{ "model": "gpt-5", "input": "조사 결과를 약 80단어로 요약하세요.", "max_output_tokens": 120 }

Chat Completions(추론 모델)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "한 줄짜리 선택지 5개를 써줘."}], "max_completion_tokens": 100 }

GPT-5 모델 전용 컨트롤: `verbosity` 및 `reasoning.effort`

이 컨트롤은 GPT-5 모델에서만 사용할 수 있습니다(gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro 등). O-series 및 레거시 모델은 이를 지원하지 않습니다.

`verbosity`는 "low", "medium"(기본값) 또는 "high"를 허용합니다. 세부 정보 수준에는 영향을 주지만, 엄격한 한도에는 영향을 주지 않습니다.

{ "model": "gpt-5", "input": "PageRank를 개략적으로 설명하세요.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort`는 답변을 생성하기 전에 생성되는 추론 토큰 수를 제어합니다. GPT-5.2는 none,low, medium, high,and xhigh를 지원합니다. gpt-5.2-pro는 medium, high,and xhigh만 지원합니다. 이전 추론 모델은 low, medium, high만 지원합니다.

{ "model": "gpt-5", "input": "자유의 여신상을 1mm 두께로 금으로 도금하려면 금이 얼마나 필요할까요?", "reasoning": { "effort": "minimal" } }

지연 시간에 민감한 사용 사례에서 모델이 비추론 모델처럼 동작하도록 `reasoning.effort`를 none으로 설정할 수 있습니다.

구체적인 지침 제공

원하는 정확한 길이나 형식을 요청하세요. 예시:

“옵션을 정확히 5개 나열하세요.”
“50단어 요약문을 작성하세요.”
“100토큰을 넘지 않게 작성하세요. 더 필요하면 ‘공간이 더 필요합니다.’라고 말하세요.”

일관된 길이의 예시 사용

원하는 길이와 맞는 퓨샷 예시는 모델이 그 패턴을 이어가는 데 도움이 됩니다.

전략적인 중지 시퀀스 적용

모델이 구분 기호나 번호 매긴 목록의 경계에 도달했을 때 생성을 중단하려면 stop을 사용하세요.

{ "stop": ["\n###", "6."] }

여러 후보

Chat Completions: n은 한 번의 호출에서 여러 완성을 반환합니다.
Responses API: n은 지원되지 않습니다. 출력이 두 개 이상 필요하면 여러 번 호출하세요.

OpenAI 모델 응답 길이 제어

개요

최대 출력 길이 설정

Responses API

Chat Completions API

모델 그룹별 토큰 한도

빠른 예시

GPT-5 모델 전용 컨트롤: `verbosity` 및 `reasoning.effort`

구체적인 지침 제공

일관된 길이의 예시 사용

전략적인 중지 시퀀스 적용

여러 후보

이 문서가 도움이 되었나요?

OpenAI 모델 응답 길이 제어

개요

최대 출력 길이 설정

Responses API

Chat Completions API

모델 그룹별 토큰 한도

빠른 예시

GPT-5 모델 전용 컨트롤: verbosity 및 reasoning.effort

구체적인 지침 제공

일관된 길이의 예시 사용

전략적인 중지 시퀀스 적용

여러 후보

이 문서가 도움이 되었나요?

GPT-5 모델 전용 컨트롤: `verbosity` 및 `reasoning.effort`