OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

Mengontrol panjang respons model OpenAI

Pelajari cara menetapkan batas output untuk model OpenAI menggunakan pengaturan token, prompt yang jelas, contoh, dan urutan stop.

Diperbarui: 6 hours ago

Ringkasan

Mengontrol panjang respons model berguna karena beberapa alasan: membantu mengelola biaya (karena Anda membayar per token), meningkatkan latensi/kinerja (respons yang lebih pendek dikembalikan lebih cepat), dan memastikan relevansi dengan menghindari output yang terlalu panjang atau bertele-tele.

Anda dapat melakukannya dengan batas token, pengaturan reasoning dan verbosity, instruksi yang jelas, contoh, dan urutan stop. Untuk detail paling terbaru dan lengkap, selalu rujuk referensi API resmi di platform.openai.com.

Tetapkan panjang output maksimum

Responses API

Digunakan untuk model GPT-5 dan sebagian besar model seri o: gunakan max_output_tokens untuk membatasi jumlah token yang akan dihasilkan model. Mendukung stop, tetapi tidak mendukung beberapa completion (n).

Chat Completions API

Digunakan untuk GPT-3.5 legacy, GPT-4o, dan terkadang seri o.

  • Untuk model reasoning seperti o3 dan o4-mini, gunakan max_completion_tokens (alias dari max_tokens)

  • Untuk model yang lebih awal/tanpa reasoning, max_tokens masih berfungsi

  • Mendukung stop dan n (beberapa completion).

Catatan: Tidak ada pengaturan “token minimum”. Jika Anda membutuhkan panjang minimum, sebutkan di prompt Anda.

Batas token berdasarkan kelompok model

Untuk batas token, ukuran konteks, dan batas output yang terbaru, silakan merujuk ke dokumentasi model spesifik.

Contoh cepat

Responses API

{ "model": "gpt-5", "input": "Ringkas temuan dalam ~80 kata.", "max_output_tokens": 120 }

Chat Completions (model reasoning)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Tulis lima opsi satu baris."}], "max_completion_tokens": 100 }

Kontrol khusus model GPT-5: verbosity dan reasoning.effort

Kontrol ini hanya tersedia pada model GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, dll.). Seri o dan model legacy tidak mendukungnya.

verbosity menerima "low", "medium" (default), atau "high". Ini memengaruhi tingkat detail, tetapi bukan batas keras.

{ "model": "gpt-5", "input": "Jelaskan PageRank secara garis besar.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort mengontrol berapa banyak token penalaran (reasoning) yang dihasilkan sebelum menghasilkan jawaban. GPT-5.2 mendukung none,low, medium, high,and xhigh. gpt-5.2-pro hanya mendukung medium, high,and xhigh. Model reasoning yang lebih awal hanya mendukung low, medium, dan high.

{ "model": "gpt-5", "input": "Berapa banyak emas yang dibutuhkan untuk melapisi Patung Liberty dengan lapisan setebal 1 mm?", "reasoning": { "effort": "minimal" } }

Anda dapat mengatur reasoning.effort menjadi none agar model berperilaku seperti model tanpa reasoning untuk use case yang sensitif terhadap latensi.

Berikan instruksi yang spesifik

Minta panjang atau bentuk yang Anda inginkan secara persis. Contoh:

  • “Daftarkan tepat lima opsi.”

  • “Tulis ringkasan 50 kata.”

  • “Tidak lebih dari 100 token. Kalau Anda butuh lebih, katakan ‘Butuh ruang lebih.’”

Gunakan contoh dengan panjang yang konsisten

Contoh few-shot yang sesuai dengan panjang yang Anda inginkan membantu model melanjutkan polanya.

Terapkan urutan stop secara strategis

Gunakan stop untuk menghentikan generasi saat model mencapai pembatas (delimiter) atau batas daftar bernomor.

{ "stop": ["
###", "6."] }

Beberapa kandidat

  • Chat Completions: n mengembalikan beberapa completion dalam satu panggilan.

  • Responses API: n tidak didukung; lakukan beberapa panggilan jika Anda membutuhkan lebih dari satu output.

Apakah artikel ini membantu?