OpenAI
Bu sayfanın çevirisi otomatik olarak yapılmıştır. Orijinal İngilizce makaleyi görüntüleyin.

Bir dizeyi gömmeyi denemeden önce kaç token içereceğini nasıl anlayabilirim?

Bir embedding için token hesaplama/tahmini

Güncellenme zamanı: 7 hours ago

Bir dizeyi embedding için göndermeden önce, OpenAI’nin tiktoken tokenizer kitaplığını kullanarak kaç token kullanacağını tahmin edebilirsiniz.

Bu, özellikle embedding modellerinin (text-embedding-3-small gibi) uymanız gereken maksimum token sınırları olduğu için yararlıdır.

---

Tiktoken ile Token Sayma

Bir dizenin oluşturacağı token sayısını hesaplamak için tiktoken Python paketini kullanabilirsiniz.

Örnek bir kod parçacığı:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Bir metin dizesindeki token sayısını döndürür."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Örnek kullanım
num_tokens = num_tokens_from_string("tiktoken harika!", "cl100k_base")
print(num_tokens)

Önemli:

  • Üçüncü nesil embedding modelleri için (ör. text-embedding-3-small veya text-embedding-3-large), "cl100k_base" kodlamasını kullanmalısınız.

  • Farklı modeller farklı kodlamalar gerektirebilir; emin değilseniz her zaman model belgelerine başvurun.

---

Token Sayımı Neden Önemlidir

  • Dizeniz modelin maksimum giriş boyutunu aşarsa API isteğiniz başarısız olur.

  • Tokenları önceden doğru şekilde saymak, embedding iş akışlarının daha sorunsuz ilerlemesini sağlar ve işleme sırasında hataları önler.

---

Bu makale yararlı oldu mu?