किसी स्ट्रिंग को एम्बेडिंग के लिए भेजने से पहले, आप OpenAI की tiktoken टोकनाइज़र लाइब्रेरी लागू करके यह अनुमान लगा सकते हैं कि यह कितने टोकन इस्तेमाल करेगी।
यह खास तौर पर उपयोगी है, क्योंकि एम्बेडिंग मॉडल (जैसे text-embedding-3-small) की अधिकतम टोकन सीमाएँ होती हैं जिनके भीतर आपको रहना होगा।
Tiktoken के साथ टोकन कैसे गिनें
आप tiktoken Python पैकेज का उपयोग करके यह गणना कर सकते हैं कि कोई स्ट्रिंग कितने टोकन बनाएगी।
यहाँ एक सैंपल कोड स्निपेट है:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)महत्वपूर्ण:
तीसरी पीढ़ी के एम्बेडिंग मॉडल (जैसे
text-embedding-3-smallयाtext-embedding-3-large) के लिए, आपको"cl100k_base"एन्कोडिंग का उपयोग करना चाहिए।अलग-अलग मॉडलों के लिए अलग-अलग एन्कोडिंग की ज़रूरत हो सकती है — यदि निश्चित न हों, तो हमेशा मॉडल दस्तावेज़ देखें।
टोकन गिनना क्यों महत्वपूर्ण है
यदि आपकी स्ट्रिंग मॉडल की अधिकतम इनपुट सीमा से अधिक हो जाती है, तो आपका API अनुरोध विफल हो जाएगा।
पहले से टोकनों की सटीक गिनती एम्बेडिंग वर्कफ़्लो को अधिक सहज बनाती है और प्रोसेसिंग के दौरान त्रुटियों से बचाती है।
