Cum pot afla câți tokeni va avea un șir înainte să încerc să-l transform în embedding?

Înainte de a trimite un șir pentru embedding, poți estima câte tokenuri va folosi aplicând biblioteca de tokenizare tiktoken de la OpenAI.

Acest lucru este util mai ales deoarece modelele de embedding (precum text-embedding-3-small) au limite maxime de tokenuri în care trebuie să te încadrezi.

---

Cum să numeri tokenurile cu Tiktoken

Poți folosi pachetul Python tiktoken pentru a calcula numărul de tokenuri pe care îl va genera un șir.

Iată un fragment de cod exemplu:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returnează numărul de tokeni dintr-un șir text."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Exemplu de utilizare
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Important:

Pentru modelele de embedding de a treia generație (de ex., text-embedding-3-small sau text-embedding-3-large), ar trebui să folosești codificarea "cl100k_base".
Modele diferite pot necesita codificări diferite — consultă întotdeauna documentația modelului dacă nu ești sigur.

---

De ce contează numărarea tokenurilor

Dacă șirul tău depășește dimensiunea maximă de intrare a modelului, solicitarea API va eșua.
Numărarea exactă a tokenurilor din timp asigură fluxuri de lucru de embedding mai fluide și previne erorile în timpul procesării.

---

Cum pot afla câți tokeni va avea un șir înainte să încerc să-l transform în embedding?

Cum să numeri tokenurile cu Tiktoken

De ce contează numărarea tokenurilor

Linkuri utile

A fost util acest articol?