OpenAI
Ova je stranica strojno prevedena. Pogledajte izvorni članak na engleskom jeziku.

Kako mogu znati koliko će tokena niz imati prije nego što ga pokušam ugraditi?

Izračun/procjena tokena za embedding

Ažurirano: 3 days ago

Prije slanja niza za ugradnju možete procijeniti koliko će tokena upotrijebiti primjenom OpenAI-jeve biblioteke tokenizatora tiktoken.

To je osobito korisno jer modeli ugradnji (poput text-embedding-3-small) imaju maksimalna ograničenja tokena kojih se morate pridržavati.

---

Kako brojati tokene uz Tiktoken

Možete upotrijebiti Python paket tiktoken za izračun broja tokena koje će niz generirati.

Evo primjera isječka koda:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Vraća broj tokena u tekstualnom nizu."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Primjer upotrebe
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Važno:

  • Za modele ugradnji treće generacije (npr. text-embedding-3-small ili text-embedding-3-large) trebali biste upotrebljavati kodiranje "cl100k_base".

  • Različiti modeli mogu zahtijevati različita kodiranja — ako niste sigurni, uvijek pogledajte dokumentaciju modela.

---

Zašto je brojanje tokena važno

  • Ako vaš niz premaši maksimalnu veličinu unosa modela, vaš API zahtjev neće uspjeti.

  • Točno brojanje tokena unaprijed osigurava jednostavnije tijekove rada s ugradnjama i sprječava pogreške tijekom obrade.

---

Je li vam ovaj članak bio koristan?