OpenAI
Denne siden ble maskinoversatt. Se den opprinnelige engelske artikkelen.

Hvordan kan jeg se hvor mange token en streng vil ha før jeg prøver å embedde den?

Beregning/estimering av token for en embedding

Oppdatert: 13 days ago

Før du sender en streng for embedding, kan du anslå hvor mange token den vil bruke ved å bruke OpenAIs tiktoken-tokeniseringsbibliotek.

Dette er spesielt nyttig fordi embedding-modeller (som text-embedding-3-small) har maksimale tokengrenser som du må holde deg innenfor.


Slik teller du token med Tiktoken

Du kan bruke Python-pakken tiktoken til å beregne hvor mange token en streng vil generere.

Her er et eksempel på en kodebit:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returnerer antall token i en tekststreng."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Eksempel på bruk
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Viktig:

  • For tredjegenerasjons embedding-modeller (f.eks. text-embedding-3-small eller text-embedding-3-large), bør du bruke kodingen "cl100k_base".

  • Ulike modeller kan kreve ulike kodinger — se alltid modell-dokumentasjonen hvis du er usikker.


Hvorfor tokentelling er viktig

  • Hvis strengen din overskrider modellens maksimale inndatastørrelse, vil API-forespørselen mislykkes.

  • Nøyaktig telling av token på forhånd gir smidigere embedding-arbeidsflyter og forhindrer feil under behandling.


Nyttige lenker

Var denne artikkelen nyttig?