OpenAI
यह पेज मशीन द्वारा अनुवादित है. मूल अंग्रेज़ी आर्टिकल देखें.

OpenAI मॉडल के जवाबों की लंबाई नियंत्रित करना

टोकन सेटिंग्स, स्पष्ट प्रॉम्प्ट, उदाहरण, और स्टॉप सीक्वेंस का उपयोग करके OpenAI मॉडलों के लिए आउटपुट सीमाएँ सेट करना सीखें।

अपडेट किया गया: 2 days ago

अवलोकन

मॉडल के जवाब की लंबाई नियंत्रित करना कई कारणों से उपयोगी है: यह लागत को मैनेज करने में मदद करता है (क्योंकि आप प्रति टोकन भुगतान करते हैं), लेटेंसी/परफॉर्मेंस बेहतर करता है (छोटे जवाब जल्दी लौटते हैं), और बहुत लंबे या अनावश्यक रूप से विस्तृत आउटपुट से बचकर प्रासंगिकता सुनिश्चित करता है।

आप यह टोकन कैप्स, reasoning और verbosity सेटिंग्स, स्पष्ट निर्देश, उदाहरण, और स्टॉप सीक्वेंस के जरिए कर सकते हैं। सबसे ताज़ा और पूर्ण जानकारी के लिए हमेशा platform.openai.com पर आधिकारिक API रेफ़रेंस।

अधिकतम आउटपुट लंबाई सेट करें

Responses API

GPT-5 मॉडलों और अधिकांश o-सीरीज़ मॉडलों के लिए उपयोग होता है: मॉडल जितने टोकन जनरेट करेगा, उनकी संख्या सीमित करने के लिए max_output_tokens का उपयोग करें। stop समर्थित है, लेकिन एक से अधिक completions (n) समर्थित नहीं हैं।

Chat Completions API

लेगेसी GPT-3.5, GPT-4o, और कभी-कभी o-सीरीज़ के लिए उपयोग होता है।

  • o3 और o4-mini जैसे reasoning मॉडलों के लिए max_completion_tokens (जो max_tokens का alias है) उपयोग करें

  • पहले/नॉन-reasoning मॉडलों के लिए max_tokens अभी भी काम करता है

  • stop और n (multiple completions) समर्थित हैं।

नोट: “minimum tokens” की कोई सेटिंग नहीं है। अगर आपको न्यूनतम लंबाई चाहिए, तो उसे अपने प्रॉम्प्ट में निर्दिष्ट करें।

मॉडल ग्रुप के अनुसार टोकन लिमिट

अप-टू-डेट टोकन लिमिट, कॉन्टेक्स्ट साइज, और आउटपुट कैप्स के लिए कृपया विशिष्ट मॉडल डॉक्युमेंटेशन देखें।

त्वरित उदाहरण

Responses API

{ "model": "gpt-5", "input": "~80 शब्दों में निष्कर्षों का सार दें।", "max_output_tokens": 120 }

Chat Completions (reasoning model)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "पाँच एक-पंक्ति विकल्प लिखें।"}], "max_completion_tokens": 100 }

GPT-5 मॉडल-विशिष्ट नियंत्रण: verbosity और reasoning.effort

ये नियंत्रण केवल GPT-5 मॉडलों पर उपलब्ध हैं (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, आदि)। O-सीरीज़ और लेगेसी मॉडल इन्हें सपोर्ट नहीं करते।

verbosity "low", "medium" (डिफ़ॉल्ट), या "high" स्वीकार करता है। यह विवरण के स्तर को प्रभावित करता है, लेकिन हार्ड लिमिट नहीं लगाता।

{ "model": "gpt-5", "input": "PageRank को उच्च स्तर पर समझाइए।", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort यह नियंत्रित करता है कि जवाब देने से पहले कितने reasoning tokens जनरेट किए जाएँ। GPT-5.2 none,low, medium, high,and xhigh सपोर्ट करता है। gpt-5.2-pro केवल medium, high,and xhigh सपोर्ट करता है। पहले के reasoning मॉडल केवल low, medium, और high सपोर्ट करते हैं।

{ "model": "gpt-5", "input": "1mm परत में स्टैच्यू ऑफ़ लिबर्टी को कोट करने के लिए कितना सोना लगेगा?", "reasoning": { "effort": "minimal" } }

लेटेंसी-सेंसिटिव उपयोग मामलों के लिए मॉडल को non-reasoning मॉडल जैसा व्यवहार कराने हेतु आप reasoning.effort को none पर सेट कर सकते हैं।


विशिष्ट निर्देश दें

आपको जितनी सटीक लंबाई या जैसा फ़ॉर्मेट चाहिए, वैसा ही माँगें। उदाहरण:

  • ठीक पाँच विकल्प सूचीबद्ध करें।”

  • 50 शब्दों का सार लिखें।”

  • 100 टोकन से ज़्यादा नहीं। अगर और चाहिए, तो कहें ‘Need more room.’”

संगत लंबाई वाले उदाहरण उपयोग करें

Few-shot उदाहरण जो आपकी इच्छित लंबाई से मेल खाते हैं, मॉडल को उसी पैटर्न को जारी रखने में मदद करते हैं।

रणनीतिक स्टॉप सीक्वेंस लागू करें

जब मॉडल किसी डिलिमिटर या नंबर वाली सूची की सीमा पर पहुँचे, तब generation रोकने के लिए stop का उपयोग करें।

{ "stop": ["\n###", "6."] }

एक से अधिक उम्मीदवार

  • Chat Completions: n एक ही कॉल में multiple completions लौटाता है।

  • Responses API: n समर्थित नहीं है; अगर आपको एक से अधिक आउटपुट चाहिए, तो कई कॉल करें।

क्या यह लेख मददगार था?