Ikhtisar
Mengontrol panjang respons model berguna karena beberapa alasan: membantu mengelola biaya (karena Anda membayar per token), meningkatkan latensi/kinerja (respons yang lebih pendek dikembalikan lebih cepat), dan memastikan relevansi dengan menghindari output yang terlalu panjang atau bertele-tele.
Anda dapat melakukannya dengan batas token, pengaturan penalaran dan verbosity, instruksi yang jelas, contoh, dan urutan stop. Untuk detail terbaru dan terlengkap, selalu lihat referensi API resmi di platform.openai.com.
Tetapkan panjang output maksimum
API Responses
Digunakan untuk model GPT-5 dan sebagian besar model seri o: gunakan max_output_tokens untuk membatasi jumlah token yang akan dihasilkan model. Untuk permintaan compaction_trigger, hilangkan max_output_tokens atau tetapkan setidaknya 20000; nilai yang lebih kecil akan ditolak. API Responses tidak mendukung beberapa penyelesaian (n).
API Penyelesaian Obrolan
Digunakan untuk model lama GPT-3.5, GPT-4o, dan terkadang seri o.
Untuk model penalaran seperti o3 dan o4-mini, gunakan
max_completion_tokens(alias darimax_tokens)Untuk model yang lebih lama/non-penalaran,
max_tokensmasih berfungsiMendukung
stopdann(beberapa penyelesaian).
Catatan: Tidak ada pengaturan “token minimum”. Jika Anda memerlukan panjang minimum, tentukan dalam prompt Anda.
Batas token menurut grup model
Untuk batas token, ukuran konteks, dan batas output terbaru, lihat dokumentasi model spesifik.
Contoh cepat
API Responses
{ "model": "gpt-5", "input": "Ringkas temuan dalam ~80 kata.", "max_output_tokens": 120 }Penyelesaian Obrolan (model penalaran)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Tulis lima opsi satu baris."}], "max_completion_tokens": 100 }Kontrol khusus model GPT-5: verbosity dan reasoning.effort
Kontrol ini hanya tersedia pada model GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, dll. Model seri O dan model lama tidak mendukungnya.
`verbosity` menerima "low", "medium" (default), atau "high". Ini memengaruhi tingkat detail, tetapi bukan batas tegas.
{ "model": "gpt-5", "input": "Jelaskan PageRank secara garis besar.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` mengontrol berapa banyak token penalaran yang dihasilkan sebelum membuat jawaban. GPT-5.2 mendukung none,low, medium, high,and xhigh. gpt-5.2-pro hanya mendukung medium, high,and xhigh. Model penalaran sebelumnya hanya mendukung low, medium, dan high.
{ "model": "gpt-5", "input": "Berapa banyak emas yang diperlukan untuk melapisi Patung Liberty dengan lapisan 1 mm?", "reasoning": { "effort": "minimal" } }Anda dapat menyetel `reasoning.effort` ke none agar model berperilaku seperti model non-penalaran untuk kasus penggunaan sensitif latensi.
Berikan instruksi spesifik
Minta panjang atau format persis yang Anda inginkan. Contoh:
“Cantumkan tepat lima opsi.”
“Tulis ringkasan 50 kata.”
“Tidak lebih dari 100 token. Jika perlu lebih banyak, katakan ‘Perlu ruang lebih.’”
Gunakan contoh dengan panjang yang konsisten
Contoh few-shot yang sesuai dengan panjang yang Anda inginkan membantu model melanjutkan pola.
Terapkan urutan stop strategis
Gunakan stop untuk menghentikan pembuatan saat model mencapai delimiter atau batas daftar bernomor.
{ "stop": ["\n###", "6."] }Beberapa kandidat
Penyelesaian Obrolan:
nmengembalikan beberapa penyelesaian dalam satu panggilan.API Responses:
ntidak didukung; lakukan beberapa panggilan jika Anda memerlukan lebih dari satu output.
