Hoe kan ik zien hoeveel tokens een tekenreeks heeft voordat ik die probeer te embedden?

Voordat je een string voor embedding verzendt, kun je schatten hoeveel tokens deze zal gebruiken door OpenAI’s tiktoken-tokenizerbibliotheek toe te passen.

Dit is vooral handig omdat embeddingmodellen (zoals text-embedding-3-small) maximale tokenlimieten hebben waar je binnen moet blijven.

---

Tokens tellen met Tiktoken

Je kunt het Python-pakket tiktoken gebruiken om het aantal tokens te berekenen dat een string zal genereren.

Hier is een voorbeeld van een codefragment:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Geeft het aantal tokens in een tekenreeks terug."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Voorbeeldgebruik
num_tokens = num_tokens_from_string("tiktoken is geweldig!", "cl100k_base")
print(num_tokens)

Belangrijk:

Voor embeddingmodellen van de derde generatie (bijv. text-embedding-3-small of text-embedding-3-large) moet je de codering "cl100k_base" gebruiken.
Verschillende modellen kunnen verschillende coderingen vereisen — raadpleeg bij twijfel altijd de modeldocumentatie.

---

Waarom token-telling belangrijk is

Als je string de maximale invoergrootte van het model overschrijdt, mislukt je API-aanvraag.
Door tokens vooraf nauwkeurig te tellen, verlopen embeddingworkflows soepeler en voorkom je fouten tijdens de verwerking.

---

Hoe kan ik zien hoeveel tokens een tekenreeks heeft voordat ik die probeer te embedden?

Tokens tellen met Tiktoken

Waarom token-telling belangrijk is

Handige links

Was dit artikel nuttig?