Ringkasan
Mengontrol panjang respons model berguna karena beberapa alasan: membantu mengelola biaya (karena Anda membayar per token), meningkatkan latensi/kinerja (respons yang lebih pendek dikembalikan lebih cepat), dan memastikan relevansi dengan menghindari output yang terlalu panjang atau bertele-tele.
Anda dapat melakukannya dengan batas token, pengaturan reasoning dan verbosity, instruksi yang jelas, contoh, dan urutan stop. Untuk detail paling terbaru dan lengkap, selalu rujuk referensi API resmi di platform.openai.com.
Tetapkan panjang output maksimum
Responses API
Digunakan untuk model GPT-5 dan sebagian besar model seri o: gunakan max_output_tokens untuk membatasi jumlah token yang akan dihasilkan model. Mendukung stop, tetapi tidak mendukung beberapa completion (n).
Chat Completions API
Digunakan untuk GPT-3.5 legacy, GPT-4o, dan terkadang seri o.
Untuk model reasoning seperti o3 dan o4-mini, gunakan
max_completion_tokens(alias darimax_tokens)Untuk model yang lebih awal/tanpa reasoning,
max_tokensmasih berfungsiMendukung
stopdann(beberapa completion).
Catatan: Tidak ada pengaturan “token minimum”. Jika Anda membutuhkan panjang minimum, sebutkan di prompt Anda.
Batas token berdasarkan kelompok model
Untuk batas token, ukuran konteks, dan batas output yang terbaru, silakan merujuk ke dokumentasi model spesifik.
Contoh cepat
Responses API
{ "model": "gpt-5", "input": "Ringkas temuan dalam ~80 kata.", "max_output_tokens": 120 }Chat Completions (model reasoning)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Tulis lima opsi satu baris."}], "max_completion_tokens": 100 }Kontrol khusus model GPT-5: verbosity dan reasoning.effort
Kontrol ini hanya tersedia pada model GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, dll.). Seri o dan model legacy tidak mendukungnya.
verbosity menerima "low", "medium" (default), atau "high". Ini memengaruhi tingkat detail, tetapi bukan batas keras.
{ "model": "gpt-5", "input": "Jelaskan PageRank secara garis besar.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort mengontrol berapa banyak token penalaran (reasoning) yang dihasilkan sebelum menghasilkan jawaban. GPT-5.2 mendukung none,low, medium, high,and xhigh. gpt-5.2-pro hanya mendukung medium, high,and xhigh. Model reasoning yang lebih awal hanya mendukung low, medium, dan high.
{ "model": "gpt-5", "input": "Berapa banyak emas yang dibutuhkan untuk melapisi Patung Liberty dengan lapisan setebal 1 mm?", "reasoning": { "effort": "minimal" } }Anda dapat mengatur reasoning.effort menjadi none agar model berperilaku seperti model tanpa reasoning untuk use case yang sensitif terhadap latensi.
Berikan instruksi yang spesifik
Minta panjang atau bentuk yang Anda inginkan secara persis. Contoh:
“Daftarkan tepat lima opsi.”
“Tulis ringkasan 50 kata.”
“Tidak lebih dari 100 token. Kalau Anda butuh lebih, katakan ‘Butuh ruang lebih.’”
Gunakan contoh dengan panjang yang konsisten
Contoh few-shot yang sesuai dengan panjang yang Anda inginkan membantu model melanjutkan polanya.
Terapkan urutan stop secara strategis
Gunakan stop untuk menghentikan generasi saat model mencapai pembatas (delimiter) atau batas daftar bernomor.
{ "stop": ["
###", "6."] }Beberapa kandidat
Chat Completions:
nmengembalikan beberapa completion dalam satu panggilan.Responses API:
ntidak didukung; lakukan beberapa panggilan jika Anda membutuhkan lebih dari satu output.
