OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?

Beregning/estimering av token for en embedding

Oppdatert: 11 days ago

Før du sender en streng til innebygging, kan du anslå hvor mange tokener den vil bruke ved å bruke OpenAIs tokeniseringsbibliotek tiktoken.

Dette er spesielt nyttig fordi innebyggingsmodeller (som text-embedding-3-small) har maksimale tokengrenser du må holde deg innenfor.

---

Slik teller du tokener med Tiktoken

Du kan bruke Python-pakken tiktoken til å beregne antall tokener en streng vil generere.

Her er et eksempel på en kodebit:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returnerer antall token i en tekststreng."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Eksempel på bruk
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Viktig:

  • For tredjegenerasjons innebyggingsmodeller (f.eks. text-embedding-3-small eller text-embedding-3-large) bør du bruke "cl100k_base"-kodingen.

  • Ulike modeller kan kreve ulike kodinger – se alltid modelldokumentasjonen hvis du er usikker.

---

Hvorfor tokentelling er viktig

  • Hvis strengen din overskrider modellens maksimale inndatastørrelse, vil API-forespørselen mislykkes.

  • Nøyaktig telling av tokener på forhånd sikrer smidigere arbeidsflyter for innebygging og hindrer feil under behandling.

---

Var denne artikkelen nyttig?