OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

Hoe kan ik zien hoeveel tokens een tekenreeks heeft voordat ik die probeer te embedden?

Tokens voor een embedding berekenen/schatten

Bijgewerkt: 1 hour ago

Voordat je een tekenreeks voor embedding verstuurt, kun je schatten hoeveel tokens deze gebruikt door OpenAI’s tiktoken-tokenizerbibliotheek toe te passen.

Dit is vooral nuttig omdat embedding-modellen (zoals text-embedding-3-small) maximale tokenlimieten hebben waar je binnen moet blijven.


Tokens tellen met Tiktoken

Je kunt het Python-pakket tiktoken gebruiken om het aantal tokens te berekenen dat een tekenreeks genereert.

Hier is een voorbeeld van een codefragment:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Geeft het aantal tokens in een tekenreeks terug."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Voorbeeldgebruik
num_tokens = num_tokens_from_string("tiktoken is geweldig!", "cl100k_base")
print(num_tokens)

Belangrijk:

  • Voor embedding-modellen van de derde generatie (bijv. text-embedding-3-small of text-embedding-3-large) moet je de codering "cl100k_base" gebruiken.

  • Verschillende modellen kunnen verschillende coderingen vereisen — raadpleeg bij twijfel altijd de modeldocumentatie.


Waarom tokens tellen belangrijk is

  • Als je tekenreeks de maximale invoergrootte van het model overschrijdt, mislukt je API-aanvraag.

  • Tokens vooraf nauwkeurig tellen zorgt voor soepelere embedding-workflows en voorkomt fouten tijdens de verwerking.


Handige links

Was dit artikel nuttig?