Bevor du einen String zum Einbetten sendest, kannst du schätzen, wie viele Token er verbraucht, indem du die tiktoken-Tokenizer-Bibliothek von OpenAI verwendest.
Das ist besonders nützlich, weil Embedding-Modelle (wie text-embedding-3-small) maximale Token-Limits haben, die du einhalten musst.
So zählst du Token mit Tiktoken
Du kannst das Python-Paket tiktoken verwenden, um zu berechnen, wie viele Token ein String erzeugt.
Hier ist ein Beispiel-Code-Snippet:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Gibt die Anzahl der Token in einem Text-String zurück."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Beispielverwendung
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Wichtig:
Für Embedding-Modelle der dritten Generation (z. B.
text-embedding-3-smallodertext-embedding-3-large) solltest du das Encoding"cl100k_base"verwenden.Verschiedene Modelle können unterschiedliche Encodings erfordern — im Zweifel schau immer in die Modelldokumentation.
Warum Token-Zählen wichtig ist
Wenn dein String die maximale Eingabegröße des Modells überschreitet, schlägt deine API-Anfrage fehl.
Token im Voraus korrekt zu zählen sorgt für reibungslosere Embedding-Workflows und verhindert Fehler bei der Verarbeitung.
