Как да разбера колко токена ще има един низ, преди да опитам да го вградя?

Изчисляване/приблизително оценяване на токени за embedding

Преди да изпратите низ за вграждане, можете да прецените колко токена ще използва, като приложите библиотеката за токенизиране tiktoken на OpenAI.

Това е особено полезно, защото моделите за вграждания (като text-embedding-3-small) имат максимални ограничения за токени, в които трябва да се вместите.

---

Как да броите токени с Tiktoken

Можете да използвате Python пакета tiktoken, за да изчислите броя токени, които ще генерира даден низ.

Ето примерен откъс от код:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Връща броя токени в текстов низ."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Пример за използване
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Важно:

За модели за вграждания от трето поколение (напр. text-embedding-3-small или text-embedding-3-large) трябва да използвате кодирането "cl100k_base".
Различните модели може да изискват различни кодирания — винаги се консултирайте с документацията на модела, ако не сте сигурни.

---

Защо броенето на токени е важно

Ако низът ви надвиши максималния размер на входа на модела, вашата API заявка ще се провали.
Точното предварително броене на токените осигурява по-гладки работни процеси с вграждания и предотвратява грешки по време на обработката.

---

Как да разбера колко токена ще има един низ, преди да опитам да го вградя?

Как да броите токени с Tiktoken

Защо броенето на токени е важно

Полезни връзки

Беше ли Ви полезна тази статия?