OpenAI
Táto stránka bola strojovo preložená. Prečítaj si pôvodný článok v angličtine.

Ako môžem zistiť, koľko tokenov bude mať reťazec predtým, než ho skúsim vložiť?

Výpočet/odhad tokenov pre embedding

Aktualizované: 11 days ago

Pred odoslaním reťazca na embedding môžete odhadnúť, koľko tokenov použije, pomocou knižnice tokenizéra tiktoken od OpenAI.

Je to obzvlášť užitočné, pretože embeddingové modely (napríklad text-embedding-3-small) majú maximálne limity tokenov, ktoré musíte dodržať.

---

Ako počítať tokeny pomocou Tiktoken

Na výpočet počtu tokenov, ktoré reťazec vygeneruje, môžete použiť balík Pythonu tiktoken.

Tu je ukážkový úryvok kódu:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Vracia počet tokenov v textovom reťazci."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Príklad použitia
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Dôležité:

  • Pre embeddingové modely tretej generácie (napr. text-embedding-3-small alebo text-embedding-3-large) by ste mali použiť kódovanie "cl100k_base".

  • Rôzne modely môžu vyžadovať rôzne kódovania — ak si nie ste istí, vždy si pozrite dokumentáciu modelu.

---

Prečo je počítanie tokenov dôležité

  • Ak váš reťazec prekročí maximálnu veľkosť vstupu modelu, vaša požiadavka API zlyhá.

  • Presné počítanie tokenov vopred zabezpečuje plynulejšie pracovné postupy embeddings a predchádza chybám počas spracovania.

---

Bol tento článok užitočný?