Ako môžem zistiť, koľko tokenov bude mať reťazec predtým, než ho skúsim vložiť?

Pred odoslaním reťazca na embedding môžete odhadnúť, koľko tokenov použije, pomocou knižnice tokenizéra tiktoken od OpenAI.

Je to obzvlášť užitočné, pretože embeddingové modely (napríklad text-embedding-3-small) majú maximálne limity tokenov, ktoré musíte dodržať.

---

Ako počítať tokeny pomocou Tiktoken

Na výpočet počtu tokenov, ktoré reťazec vygeneruje, môžete použiť balík Pythonu tiktoken.

Tu je ukážkový úryvok kódu:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Vracia počet tokenov v textovom reťazci."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Príklad použitia
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Dôležité:

Pre embeddingové modely tretej generácie (napr. text-embedding-3-small alebo text-embedding-3-large) by ste mali použiť kódovanie "cl100k_base".
Rôzne modely môžu vyžadovať rôzne kódovania — ak si nie ste istí, vždy si pozrite dokumentáciu modelu.

---

Prečo je počítanie tokenov dôležité

Ak váš reťazec prekročí maximálnu veľkosť vstupu modelu, vaša požiadavka API zlyhá.
Presné počítanie tokenov vopred zabezpečuje plynulejšie pracovné postupy embeddings a predchádza chybám počas spracovania.

---

Ako môžem zistiť, koľko tokenov bude mať reťazec predtým, než ho skúsim vložiť?

Ako počítať tokeny pomocou Tiktoken

Prečo je počítanie tokenov dôležité

Užitočné odkazy

Bol tento článok užitočný?