OpenAI
Această pagină a fost tradusă automat. Vezi articolul original în limba engleză.

Cum pot afla câți tokeni va avea un șir înainte să încerc să-l transform în embedding?

Calcularea/aproximarea tokenilor pentru un embedding

Actualizat: 5 days ago

Înainte de a trimite un șir pentru embedding, poți estima câți tokeni va folosi aplicând biblioteca tokenizer tiktoken de la OpenAI.

Acest lucru este deosebit de util deoarece modelele de embedding (precum text-embedding-3-small) au limite maxime de tokeni de care trebuie să ții cont.


Cum să numeri tokenii cu Tiktoken

Poți folosi pachetul Python tiktoken pentru a calcula numărul de tokeni pe care îl va genera un șir.

Iată un fragment de cod exemplu:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returnează numărul de tokeni dintr-un șir text."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Exemplu de utilizare
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Important:

  • Pentru modelele de embedding din a treia generație (de ex., text-embedding-3-small sau text-embedding-3-large), ar trebui să folosești codarea "cl100k_base".

  • Diferite modele pot necesita codări diferite — consultă întotdeauna documentația modelului dacă nu ești sigur.


De ce contează numărarea tokenilor

  • Dacă șirul tău depășește dimensiunea maximă de intrare a modelului, cererea ta API va eșua.

  • Numărarea corectă a tokenilor din timp asigură fluxuri de lucru pentru embedding mai line și previne erorile în timpul procesării.


Linkuri utile

A fost util acest articol?