Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?

Før du sender en streng til innebygging, kan du anslå hvor mange tokener den vil bruke ved å bruke OpenAIs tokeniseringsbibliotek tiktoken.

Dette er spesielt nyttig fordi innebyggingsmodeller (som text-embedding-3-small) har maksimale tokengrenser du må holde deg innenfor.

---

Slik teller du tokener med Tiktoken

Du kan bruke Python-pakken tiktoken til å beregne antall tokener en streng vil generere.

Her er et eksempel på en kodebit:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returnerer antall token i en tekststreng."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Eksempel på bruk
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Viktig:

For tredjegenerasjons innebyggingsmodeller (f.eks. text-embedding-3-small eller text-embedding-3-large) bør du bruke "cl100k_base"-kodingen.
Ulike modeller kan kreve ulike kodinger – se alltid modelldokumentasjonen hvis du er usikker.

---

Hvorfor tokentelling er viktig

Hvis strengen din overskrider modellens maksimale inndatastørrelse, vil API-forespørselen mislykkes.
Nøyaktig telling av tokener på forhånd sikrer smidigere arbeidsflyter for innebygging og hindrer feil under behandling.

---

Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?

Slik teller du tokener med Tiktoken

Hvorfor tokentelling er viktig

Nyttige lenker

Var denne artikkelen nyttig?