OpenAI
এই পেজটি মেশিন দিয়ে অনুবাদ করা হয়েছে। মূল ইংরেজি আর্টিকেল দেখুন

আমি এমবেড করার আগে কীভাবে বুঝব একটি স্ট্রিংয়ে কতটি টোকেন হবে?

একটি এমবেডিংয়ের জন্য টোকেন গণনা/আনুমানিক হিসাব করা

আপডেট করা হয়েছে: 11 days ago

এম্বেডিংয়ের জন্য কোনো স্ট্রিং পাঠানোর আগে, OpenAI-এর tiktoken টোকেনাইজার লাইব্রেরি প্রয়োগ করে সেটি কত টোকেন ব্যবহার করবে তা আপনি অনুমান করতে পারেন.

এটি বিশেষভাবে উপযোগী, কারণ এম্বেডিং মডেলগুলোর (যেমন text-embedding-3-small) সর্বোচ্চ টোকেন সীমা থাকে, যার মধ্যে আপনাকে থাকতে হবে.

---

Tiktoken দিয়ে টোকেন গণনা করার পদ্ধতি

কোনো স্ট্রিং কতগুলো টোকেন তৈরি করবে তা গণনা করতে আপনি tiktoken Python প্যাকেজ ব্যবহার করতে পারেন.

এখানে একটি নমুনা কোড স্নিপেট দেওয়া হলো:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""একটি টেক্সট স্ট্রিংয়ে টোকেনের সংখ্যা রিটার্ন করে."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# উদাহরণ ব্যবহার
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

গুরুত্বপূর্ণ:

  • তৃতীয়-প্রজন্মের এম্বেডিং মডেলগুলোর জন্য (যেমন, text-embedding-3-small বা text-embedding-3-large), আপনার "cl100k_base" এনকোডিং ব্যবহার করা উচিত.

  • ভিন্ন মডেলের জন্য ভিন্ন এনকোডিং প্রয়োজন হতে পারে — নিশ্চিত না হলে সবসময় মডেলের ডকুমেন্টেশন দেখুন.

---

টোকেন গণনা কেন গুরুত্বপূর্ণ

  • আপনার স্ট্রিং মডেলের সর্বোচ্চ ইনপুট আকার অতিক্রম করলে, আপনার API অনুরোধ ব্যর্থ হবে.

  • আগে থেকেই সঠিকভাবে টোকেন গণনা করলে এম্বেডিং ওয়ার্কফ্লো আরও মসৃণ হয় এবং প্রক্রিয়াকরণের সময় ত্রুটি প্রতিরোধ হয়.

---

এই নিবন্ধটি কি সহায়ক ছিল?