Prije slanja niza za ugradnju možete procijeniti koliko će tokena upotrijebiti primjenom OpenAI-jeve biblioteke tokenizatora tiktoken.
To je osobito korisno jer modeli ugradnji (poput text-embedding-3-small) imaju maksimalna ograničenja tokena kojih se morate pridržavati.
---
Kako brojati tokene uz Tiktoken
Možete upotrijebiti Python paket tiktoken za izračun broja tokena koje će niz generirati.
Evo primjera isječka koda:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Vraća broj tokena u tekstualnom nizu."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Primjer upotrebe
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Važno:
Za modele ugradnji treće generacije (npr.
text-embedding-3-smallilitext-embedding-3-large) trebali biste upotrebljavati kodiranje"cl100k_base".Različiti modeli mogu zahtijevati različita kodiranja — ako niste sigurni, uvijek pogledajte dokumentaciju modela.
---
Zašto je brojanje tokena važno
Ako vaš niz premaši maksimalnu veličinu unosa modela, vaš API zahtjev neće uspjeti.
Točno brojanje tokena unaprijed osigurava jednostavnije tijekove rada s ugradnjama i sprječava pogreške tijekom obrade.
---
