Kako mogu znati koliko će tokena niz imati prije nego što ga pokušam ugraditi?

Prije slanja niza za ugradnju možete procijeniti koliko će tokena upotrijebiti primjenom OpenAI-jeve biblioteke tokenizatora tiktoken.

To je osobito korisno jer modeli ugradnji (poput text-embedding-3-small) imaju maksimalna ograničenja tokena kojih se morate pridržavati.

---

Kako brojati tokene uz Tiktoken

Možete upotrijebiti Python paket tiktoken za izračun broja tokena koje će niz generirati.

Evo primjera isječka koda:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Vraća broj tokena u tekstualnom nizu."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Primjer upotrebe
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Važno:

Za modele ugradnji treće generacije (npr. text-embedding-3-small ili text-embedding-3-large) trebali biste upotrebljavati kodiranje "cl100k_base".
Različiti modeli mogu zahtijevati različita kodiranja — ako niste sigurni, uvijek pogledajte dokumentaciju modela.

---

Zašto je brojanje tokena važno

Ako vaš niz premaši maksimalnu veličinu unosa modela, vaš API zahtjev neće uspjeti.
Točno brojanje tokena unaprijed osigurava jednostavnije tijekove rada s ugradnjama i sprječava pogreške tijekom obrade.

---

Kako mogu znati koliko će tokena niz imati prije nego što ga pokušam ugraditi?

Kako brojati tokene uz Tiktoken

Zašto je brojanje tokena važno

Korisne poveznice

Je li vam ovaj članak bio koristan?