OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

Mengontrol panjang respons model OpenAI

Pelajari cara mengatur batas output untuk model OpenAI menggunakan pengaturan token, prompt yang jelas, contoh, dan urutan stop.

Diperbarui: 7 hours ago

Ikhtisar

Mengontrol panjang respons model berguna karena beberapa alasan: membantu mengelola biaya (karena Anda membayar per token), meningkatkan latensi/kinerja (respons yang lebih pendek dikembalikan lebih cepat), dan memastikan relevansi dengan menghindari output yang terlalu panjang atau bertele-tele.

Anda dapat melakukannya dengan batas token, pengaturan penalaran dan verbosity, instruksi yang jelas, contoh, dan urutan stop. Untuk detail terbaru dan terlengkap, selalu lihat referensi API resmi di platform.openai.com.

Tetapkan panjang output maksimum

API Responses

Digunakan untuk model GPT-5 dan sebagian besar model seri o: gunakan max_output_tokens untuk membatasi jumlah token yang akan dihasilkan model. Untuk permintaan compaction_trigger, hilangkan max_output_tokens atau tetapkan setidaknya 20000; nilai yang lebih kecil akan ditolak. API Responses tidak mendukung beberapa penyelesaian (n).

API Penyelesaian Obrolan

Digunakan untuk model lama GPT-3.5, GPT-4o, dan terkadang seri o.

  • Untuk model penalaran seperti o3 dan o4-mini, gunakan max_completion_tokens (alias dari max_tokens)

  • Untuk model yang lebih lama/non-penalaran, max_tokens masih berfungsi

  • Mendukung stop dan n (beberapa penyelesaian).

Catatan: Tidak ada pengaturan “token minimum”. Jika Anda memerlukan panjang minimum, tentukan dalam prompt Anda.

Batas token menurut grup model

Untuk batas token, ukuran konteks, dan batas output terbaru, lihat dokumentasi model spesifik.

Contoh cepat

API Responses

{ "model": "gpt-5", "input": "Ringkas temuan dalam ~80 kata.", "max_output_tokens": 120 }

Penyelesaian Obrolan (model penalaran)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Tulis lima opsi satu baris."}], "max_completion_tokens": 100 }

Kontrol khusus model GPT-5: verbosity dan reasoning.effort

Kontrol ini hanya tersedia pada model GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, dll. Model seri O dan model lama tidak mendukungnya.

`verbosity` menerima "low", "medium" (default), atau "high". Ini memengaruhi tingkat detail, tetapi bukan batas tegas.

{ "model": "gpt-5", "input": "Jelaskan PageRank secara garis besar.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` mengontrol berapa banyak token penalaran yang dihasilkan sebelum membuat jawaban. GPT-5.2 mendukung none,low, medium, high,and xhigh. gpt-5.2-pro hanya mendukung medium, high,and xhigh. Model penalaran sebelumnya hanya mendukung low, medium, dan high.

{ "model": "gpt-5", "input": "Berapa banyak emas yang diperlukan untuk melapisi Patung Liberty dengan lapisan 1 mm?", "reasoning": { "effort": "minimal" } }

Anda dapat menyetel `reasoning.effort` ke none agar model berperilaku seperti model non-penalaran untuk kasus penggunaan sensitif latensi.

Berikan instruksi spesifik

Minta panjang atau format persis yang Anda inginkan. Contoh:

  • “Cantumkan tepat lima opsi.”

  • “Tulis ringkasan 50 kata.”

  • “Tidak lebih dari 100 token. Jika perlu lebih banyak, katakan ‘Perlu ruang lebih.’”

Gunakan contoh dengan panjang yang konsisten

Contoh few-shot yang sesuai dengan panjang yang Anda inginkan membantu model melanjutkan pola.

Terapkan urutan stop strategis

Gunakan stop untuk menghentikan pembuatan saat model mencapai delimiter atau batas daftar bernomor.

{ "stop": ["\n###", "6."] }

Beberapa kandidat

  • Penyelesaian Obrolan: n mengembalikan beberapa penyelesaian dalam satu panggilan.

  • API Responses: n tidak didukung; lakukan beberapa panggilan jika Anda memerlukan lebih dari satu output.

Apakah artikel ini membantu?