Voordat je een tekenreeks voor embedding verstuurt, kun je schatten hoeveel tokens deze gebruikt door OpenAI’s tiktoken-tokenizerbibliotheek toe te passen.
Dit is vooral nuttig omdat embedding-modellen (zoals text-embedding-3-small) maximale tokenlimieten hebben waar je binnen moet blijven.
Tokens tellen met Tiktoken
Je kunt het Python-pakket tiktoken gebruiken om het aantal tokens te berekenen dat een tekenreeks genereert.
Hier is een voorbeeld van een codefragment:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Geeft het aantal tokens in een tekenreeks terug."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Voorbeeldgebruik
num_tokens = num_tokens_from_string("tiktoken is geweldig!", "cl100k_base")
print(num_tokens)Belangrijk:
Voor embedding-modellen van de derde generatie (bijv.
text-embedding-3-smalloftext-embedding-3-large) moet je de codering"cl100k_base"gebruiken.Verschillende modellen kunnen verschillende coderingen vereisen — raadpleeg bij twijfel altijd de modeldocumentatie.
Waarom tokens tellen belangrijk is
Als je tekenreeks de maximale invoergrootte van het model overschrijdt, mislukt je API-aanvraag.
Tokens vooraf nauwkeurig tellen zorgt voor soepelere embedding-workflows en voorkomt fouten tijdens de verwerking.
