Før du sender en streng til innebygging, kan du anslå hvor mange tokener den vil bruke ved å bruke OpenAIs tokeniseringsbibliotek tiktoken.
Dette er spesielt nyttig fordi innebyggingsmodeller (som text-embedding-3-small) har maksimale tokengrenser du må holde deg innenfor.
---
Slik teller du tokener med Tiktoken
Du kan bruke Python-pakken tiktoken til å beregne antall tokener en streng vil generere.
Her er et eksempel på en kodebit:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returnerer antall token i en tekststreng."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Eksempel på bruk
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Viktig:
For tredjegenerasjons innebyggingsmodeller (f.eks.
text-embedding-3-smallellertext-embedding-3-large) bør du bruke"cl100k_base"-kodingen.Ulike modeller kan kreve ulike kodinger – se alltid modelldokumentasjonen hvis du er usikker.
---
Hvorfor tokentelling er viktig
Hvis strengen din overskrider modellens maksimale inndatastørrelse, vil API-forespørselen mislykkes.
Nøyaktig telling av tokener på forhånd sikrer smidigere arbeidsflyter for innebygging og hindrer feil under behandling.
---
