এম্বেডিংয়ের জন্য কোনো স্ট্রিং পাঠানোর আগে, OpenAI-এর tiktoken টোকেনাইজার লাইব্রেরি প্রয়োগ করে সেটি কত টোকেন ব্যবহার করবে তা আপনি অনুমান করতে পারেন.
এটি বিশেষভাবে উপযোগী, কারণ এম্বেডিং মডেলগুলোর (যেমন text-embedding-3-small) সর্বোচ্চ টোকেন সীমা থাকে, যার মধ্যে আপনাকে থাকতে হবে.
---
Tiktoken দিয়ে টোকেন গণনা করার পদ্ধতি
কোনো স্ট্রিং কতগুলো টোকেন তৈরি করবে তা গণনা করতে আপনি tiktoken Python প্যাকেজ ব্যবহার করতে পারেন.
এখানে একটি নমুনা কোড স্নিপেট দেওয়া হলো:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""একটি টেক্সট স্ট্রিংয়ে টোকেনের সংখ্যা রিটার্ন করে."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# উদাহরণ ব্যবহার
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)গুরুত্বপূর্ণ:
তৃতীয়-প্রজন্মের এম্বেডিং মডেলগুলোর জন্য (যেমন,
text-embedding-3-smallবাtext-embedding-3-large), আপনার"cl100k_base"এনকোডিং ব্যবহার করা উচিত.ভিন্ন মডেলের জন্য ভিন্ন এনকোডিং প্রয়োজন হতে পারে — নিশ্চিত না হলে সবসময় মডেলের ডকুমেন্টেশন দেখুন.
---
টোকেন গণনা কেন গুরুত্বপূর্ণ
আপনার স্ট্রিং মডেলের সর্বোচ্চ ইনপুট আকার অতিক্রম করলে, আপনার API অনুরোধ ব্যর্থ হবে.
আগে থেকেই সঠিকভাবে টোকেন গণনা করলে এম্বেডিং ওয়ার্কফ্লো আরও মসৃণ হয় এবং প্রক্রিয়াকরণের সময় ত্রুটি প্রতিরোধ হয়.
---
