Bir dizeyi embedding için göndermeden önce, OpenAI’nin tiktoken tokenizer kitaplığını kullanarak kaç token kullanacağını tahmin edebilirsiniz.
Bu, özellikle embedding modellerinin (text-embedding-3-small gibi) uymanız gereken maksimum token sınırları olduğu için yararlıdır.
---
Tiktoken ile Token Sayma
Bir dizenin oluşturacağı token sayısını hesaplamak için tiktoken Python paketini kullanabilirsiniz.
Örnek bir kod parçacığı:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Bir metin dizesindeki token sayısını döndürür."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Örnek kullanım
num_tokens = num_tokens_from_string("tiktoken harika!", "cl100k_base")
print(num_tokens)Önemli:
Üçüncü nesil embedding modelleri için (ör.
text-embedding-3-smallveyatext-embedding-3-large),"cl100k_base"kodlamasını kullanmalısınız.Farklı modeller farklı kodlamalar gerektirebilir; emin değilseniz her zaman model belgelerine başvurun.
---
Token Sayımı Neden Önemlidir
Dizeniz modelin maksimum giriş boyutunu aşarsa API isteğiniz başarısız olur.
Tokenları önceden doğru şekilde saymak, embedding iş akışlarının daha sorunsuz ilerlemesini sağlar ve işleme sırasında hataları önler.
---
