अवलोकन
मॉडल की प्रतिक्रिया की लंबाई नियंत्रित करना कई कारणों से उपयोगी है: यह लागत प्रबंधित करने में मदद करता है (क्योंकि आप प्रति टोकन भुगतान करते हैं), लेटेंसी/प्रदर्शन सुधारता है (छोटी प्रतिक्रियाएँ तेज़ी से लौटती हैं), और बहुत लंबे या शब्दाडंबरपूर्ण आउटपुट से बचाकर प्रासंगिकता सुनिश्चित करता है.
आप यह टोकन कैप्स, रीज़निंग और वर्बोसिटी सेटिंग्स, स्पष्ट निर्देशों, उदाहरणों और स्टॉप सीक्वेंस का उपयोग करके कर सकते हैं. सबसे मौजूदा और पूर्ण विवरणों के लिए, हमेशा platform.openai.com पर आधिकारिक API संदर्भ देखें.
अधिकतम आउटपुट लंबाई सेट करें
रिस्पॉन्सेस API
GPT-5 मॉडलों और अधिकांश o-सीरीज़ मॉडलों के लिए उपयोग किया जाता है: मॉडल द्वारा जनरेट किए जाने वाले टोकन की संख्या सीमित करने के लिए max_output_tokens का उपयोग करें. compaction_trigger अनुरोधों के लिए, या तो max_output_tokens छोड़ दें या इसे कम से कम 20000 पर सेट करें; छोटे मान अस्वीकार किए जाते हैं. रिस्पॉन्सेस API कई कम्प्लीशन्स (n) को सपोर्ट नहीं करता.
चैट कम्प्लीशन्स API
लेगेसी GPT-3.5, GPT-4o, और कभी-कभी o-सीरीज़ के लिए उपयोग किया जाता है.
o3 और o4-mini जैसे रीज़निंग मॉडलों के लिए,
max_completion_tokens(max_tokensका उपनाम) का उपयोग करें.पहले के/नॉन-रीज़निंग मॉडलों के लिए,
max_tokensअब भी काम करता है.stopऔरn(कई कम्प्लीशन्स) को सपोर्ट करता है.
ध्यान दें: “न्यूनतम टोकन” की कोई सेटिंग नहीं है. यदि आपको न्यूनतम लंबाई चाहिए, तो उसे अपने प्रॉम्प्ट में निर्दिष्ट करें.
मॉडल समूह के अनुसार टोकन सीमाएँ
अप-टू-डेट टोकन सीमाओं, कॉन्टेक्स्ट आकारों और आउटपुट कैप्स के लिए, कृपया विशिष्ट मॉडल दस्तावेज़ देखें.
त्वरित उदाहरण
रिस्पॉन्सेस API
{ "model": "gpt-5", "input": "निष्कर्षों को लगभग 80 शब्दों में संक्षेपित करें.", "max_output_tokens": 120 }चैट कम्प्लीशन्स (रीज़निंग मॉडल)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "पाँच एक-पंक्ति विकल्प लिखें।"}], "max_completion_tokens": 100 }GPT-5 मॉडलों के खास नियंत्रण: verbosity और reasoning.effort
ये नियंत्रण केवल GPT-5 मॉडलों पर उपलब्ध हैं (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, आदि. O-सीरीज़ और लेगेसी मॉडल इन्हें सपोर्ट नहीं करते.
`verbosity` "low", "medium" (डिफ़ॉल्ट), या "high" स्वीकार करता है. यह विवरण के स्तर को प्रभावित करता है, लेकिन कठोर सीमाओं को नहीं.
{ "model": "gpt-5", "input": "PageRank को उच्च स्तर पर समझाएँ.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` यह नियंत्रित करता है कि उत्तर देने से पहले कितने रीज़निंग टोकन जनरेट किए जाएँ. GPT-5.2 none,low, medium, high,and xhigh को सपोर्ट करता है. gpt-5.2-pro केवल medium, high,and xhigh को सपोर्ट करता है. पहले के रीज़निंग मॉडल केवल low, medium, और high को सपोर्ट करते हैं.
{ "model": "gpt-5", "input": "स्टैच्यू ऑफ़ लिबर्टी पर 1mm की परत चढ़ाने में कितना सोना लगेगा?", "reasoning": { "effort": "minimal" } }लेटेंसी-संवेदनशील उपयोग मामलों के लिए मॉडल को नॉन-रीज़निंग मॉडल की तरह व्यवहार कराने हेतु आप `reasoning.effort` को none पर सेट कर सकते हैं.
विशिष्ट निर्देश दें
अपनी इच्छित सटीक लंबाई या रूप के लिए कहें. उदाहरण:
“ठीक पाँच विकल्प सूचीबद्ध करें.”
“50-शब्दों का सारांश लिखें.”
“100 टोकन से ज़्यादा नहीं. अगर और चाहिए, तो कहें ‘और जगह चाहिए.’”
संगत लंबाई वाले उदाहरणों का उपयोग करें
आपकी वांछित लंबाई से मेल खाने वाले फ्यू-शॉट उदाहरण मॉडल को पैटर्न जारी रखने में मदद करते हैं.
रणनीतिक स्टॉप सीक्वेंस लागू करें
जब मॉडल किसी डिलिमिटर या क्रमांकित सूची की सीमा पर पहुँचे, तो जनरेशन रोकने के लिए stop का उपयोग करें.
{ "stop": ["\n###", "6."] }कई उम्मीदवार
चैट कम्प्लीशन्स:
nएक कॉल में कई कम्प्लीशन्स लौटाता है.रिस्पॉन्सेस API:
nसपोर्ट नहीं है; यदि आपको एक से अधिक आउटपुट चाहिए, तो कई कॉल करें.
