Prieš siųsdami eilutę įterpimui, galite įvertinti, kiek žetonų ji naudos, pritaikydami OpenAI tiktoken skaidymo į žetonus biblioteką.
Tai ypač naudinga, nes įterpimo modeliai (pvz., text-embedding-3-small) turi maksimalius žetonų limitus, kurių turėsite neviršyti.
---
Kaip skaičiuoti žetonus naudojant Tiktoken
Galite naudoti „Python“ paketą tiktoken, kad apskaičiuotumėte, kiek žetonų sugeneruos eilutė.
Štai pavyzdinis kodo fragmentas:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Grąžina žetonų skaičių teksto eilutėje."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Naudojimo pavyzdys
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Svarbu:
Naudodami trečiosios kartos įterpimo modelius (pvz.,
text-embedding-3-smallarbatext-embedding-3-large), turėtumėte naudoti"cl100k_base"koduotę.Skirtingiems modeliams gali reikėti skirtingų koduočių — jei nesate tikri, visada žr. modelio dokumentaciją.
---
Kodėl svarbu skaičiuoti žetonus
Jei jūsų eilutė viršys modelio maksimalų įvesties dydį, API užklausa nepavyks.
Tikslus išankstinis žetonų skaičiavimas užtikrina sklandesnes įterpimo darbo eigas ir padeda išvengti klaidų apdorojant.
---
