Tìm hiểu cách đặt giới hạn đầu ra cho các mô hình OpenAI bằng thiết lập token, câu lệnh rõ ràng, ví dụ và chuỗi dừng.

Tổng quan

Việc kiểm soát độ dài phản hồi của mô hình hữu ích vì nhiều lý do: giúp quản lý chi phí (vì bạn trả phí theo token), cải thiện độ trễ/hiệu năng (phản hồi ngắn hơn được trả về nhanh hơn) và đảm bảo tính liên quan bằng cách tránh đầu ra quá dài hoặc dài dòng.

Bạn có thể làm điều này bằng mức trần token, thiết lập suy luận và độ chi tiết, hướng dẫn rõ ràng, ví dụ và chuỗi dừng. Để có thông tin mới nhất và đầy đủ nhất, hãy luôn tham khảo tài liệu tham khảo API chính thức trên platform.openai.com.

Đặt độ dài đầu ra tối đa

Responses API

Dùng cho các mô hình GPT-5 và hầu hết mô hình dòng o: dùng max_output_tokens để giới hạn số token mà mô hình sẽ tạo. Với yêu cầu compaction_trigger, hãy bỏ qua max_output_tokens hoặc đặt giá trị này ít nhất là 20000; giá trị nhỏ hơn sẽ bị từ chối. Responses API không hỗ trợ nhiều kết quả hoàn thiện (n).

API hoàn thiện hội thoại

Dùng cho GPT-3.5 đời cũ, GPT-4o và đôi khi là dòng o.

Với các mô hình suy luận như o3 và o4-mini, hãy dùng max_completion_tokens (bí danh của max_tokens)
Với các mô hình đời trước/không suy luận, max_tokens vẫn hoạt động
Hỗ trợ stop và n (nhiều kết quả hoàn thiện).

Lưu ý: Không có thiết lập “token tối thiểu”. Nếu bạn cần độ dài tối thiểu, hãy nêu rõ trong câu lệnh.

Giới hạn token theo nhóm mô hình

Để biết giới hạn token, kích thước ngữ cảnh và mức trần đầu ra mới nhất, vui lòng tham khảo tài liệu về mô hình cụ thể.

Ví dụ nhanh

Responses API

{ "model": "gpt-5", "input": "Tóm tắt các phát hiện trong ~80 từ.", "max_output_tokens": 120 }

Hoàn thiện hội thoại (mô hình suy luận)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Các điều khiển dành riêng cho mô hình GPT-5: `verbosity` và `reasoning.effort`

Các điều khiển này chỉ có trên các mô hình GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, v.v. Các mô hình dòng O và mô hình cũ không hỗ trợ chúng.

`verbosity` chấp nhận "low", "medium" (mặc định) hoặc "high". Thiết lập này ảnh hưởng đến mức độ chi tiết, nhưng không phải giới hạn cứng.

{ "model": "gpt-5", "input": "Giải thích PageRank ở mức khái quát.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` kiểm soát số token suy luận được tạo trước khi đưa ra câu trả lời. GPT-5.2 hỗ trợ none,low, medium, high,and xhigh. gpt-5.2-pro chỉ hỗ trợ medium, high,and xhigh. Các mô hình suy luận đời trước chỉ hỗ trợ low, medium và high.

{ "model": "gpt-5", "input": "Cần bao nhiêu vàng để phủ Tượng Nữ thần Tự do bằng một lớp dày 1 mm?", "reasoning": { "effort": "minimal" } }

Bạn có thể đặt `reasoning.effort` thành none để khiến mô hình hoạt động như mô hình không suy luận cho các trường hợp sử dụng nhạy cảm với độ trễ.

Cung cấp hướng dẫn cụ thể

Hãy yêu cầu đúng độ dài hoặc định dạng bạn muốn. Ví dụ:

“Liệt kê đúng năm phương án.”
“Viết bản tóm tắt 50 từ.”
“Không quá 100 token. Nếu cần thêm chỗ, hãy nói ‘Cần thêm chỗ.’”

Dùng ví dụ có độ dài nhất quán

Các ví dụ ít mẫu có độ dài khớp với mong muốn của bạn sẽ giúp mô hình tiếp tục theo mẫu.

Dùng chuỗi dừng một cách chiến lược

Dùng stop để dừng tạo nội dung khi mô hình gặp dấu phân tách hoặc ranh giới của danh sách đánh số.

{ "stop": ["\n###", "6."] }

Nhiều phương án

Hoàn thiện hội thoại: n trả về nhiều kết quả hoàn thiện trong một lệnh gọi.
Responses API: n không được hỗ trợ; hãy thực hiện nhiều lệnh gọi nếu bạn cần nhiều hơn một đầu ra.

Kiểm soát độ dài phản hồi của mô hình OpenAI

Tổng quan

Đặt độ dài đầu ra tối đa

Responses API

API hoàn thiện hội thoại

Giới hạn token theo nhóm mô hình

Ví dụ nhanh

Các điều khiển dành riêng cho mô hình GPT-5: `verbosity` và `reasoning.effort`

Cung cấp hướng dẫn cụ thể

Dùng ví dụ có độ dài nhất quán

Dùng chuỗi dừng một cách chiến lược

Nhiều phương án

Bài viết này có hữu ích không?

Kiểm soát độ dài phản hồi của mô hình OpenAI

Tổng quan

Đặt độ dài đầu ra tối đa

Responses API

API hoàn thiện hội thoại

Giới hạn token theo nhóm mô hình

Ví dụ nhanh

Các điều khiển dành riêng cho mô hình GPT-5: verbosity và reasoning.effort

Cung cấp hướng dẫn cụ thể

Dùng ví dụ có độ dài nhất quán

Dùng chuỗi dừng một cách chiến lược

Nhiều phương án

Bài viết này có hữu ích không?

Các điều khiển dành riêng cho mô hình GPT-5: `verbosity` và `reasoning.effort`