Înainte de a trimite un șir pentru embedding, poți estima câți tokeni va folosi aplicând biblioteca tokenizer tiktoken de la OpenAI.
Acest lucru este deosebit de util deoarece modelele de embedding (precum text-embedding-3-small) au limite maxime de tokeni de care trebuie să ții cont.
Cum să numeri tokenii cu Tiktoken
Poți folosi pachetul Python tiktoken pentru a calcula numărul de tokeni pe care îl va genera un șir.
Iată un fragment de cod exemplu:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returnează numărul de tokeni dintr-un șir text."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Exemplu de utilizare
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Important:
Pentru modelele de embedding din a treia generație (de ex.,
text-embedding-3-smallsautext-embedding-3-large), ar trebui să folosești codarea"cl100k_base".Diferite modele pot necesita codări diferite — consultă întotdeauna documentația modelului dacă nu ești sigur.
De ce contează numărarea tokenilor
Dacă șirul tău depășește dimensiunea maximă de intrare a modelului, cererea ta API va eșua.
Numărarea corectă a tokenilor din timp asigură fluxuri de lucru pentru embedding mai line și previne erorile în timpul procesării.
