Преди да изпратите низ за вграждане, можете да прецените колко токена ще използва, като приложите библиотеката за токенизиране tiktoken на OpenAI.
Това е особено полезно, защото моделите за вграждания (като text-embedding-3-small) имат максимални ограничения за токени, в които трябва да се вместите.
---
Как да броите токени с Tiktoken
Можете да използвате Python пакета tiktoken, за да изчислите броя токени, които ще генерира даден низ.
Ето примерен откъс от код:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Връща броя токени в текстов низ."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Пример за използване
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Важно:
За модели за вграждания от трето поколение (напр.
text-embedding-3-smallилиtext-embedding-3-large) трябва да използвате кодирането"cl100k_base".Различните модели може да изискват различни кодирания — винаги се консултирайте с документацията на модела, ако не сте сигурни.
---
Защо броенето на токени е важно
Ако низът ви надвиши максималния размер на входа на модела, вашата API заявка ще се провали.
Точното предварително броене на токените осигурява по-гладки работни процеси с вграждания и предотвратява грешки по време на обработката.
---
