Преди да изпратите низ за embedding, можете да прецените колко токена ще използва, като приложите библиотеката за токенизиране tiktoken на OpenAI.
Това е особено полезно, защото embedding моделите (като text-embedding-3-small) имат максимални ограничения за токени, в които трябва да се вместите.
Как да броите токени с Tiktoken
Можете да използвате Python пакета tiktoken, за да изчислите броя токени, които ще генерира един низ.
Ето примерен кодов откъс:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Връща броя токени в текстов низ."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Пример за използване
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Важно:
За embedding модели от трето поколение (напр.
text-embedding-3-smallилиtext-embedding-3-large) трябва да използвате кодирането"cl100k_base".Различните модели може да изискват различни кодирания — ако не сте сигурни, винаги проверявайте документацията на модела.
Защо броенето на токени е важно
Ако низът ви надвишава максималния входен размер на модела, API заявката ви ще е неуспешна.
Точното преброяване на токените предварително осигурява по-плавни embedding работни процеси и предотвратява грешки по време на обработка.
