Bevor Sie eine Zeichenkette zum Embedding senden, können Sie abschätzen, wie viele Token sie verwendet, indem Sie die tiktoken-Tokenizer-Bibliothek von OpenAI nutzen.
Das ist besonders nützlich, da Embedding-Modelle (wie text-embedding-3-small) maximale Token-Limits haben, die Sie einhalten müssen.
---
Token mit Tiktoken zählen
Sie können das Python-Paket tiktoken verwenden, um die Anzahl der Token zu berechnen, die eine Zeichenkette erzeugt.
Hier ist ein Beispiel-Code-Snippet:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Wichtig:
Für Embedding-Modelle der dritten Generation (z. B.
text-embedding-3-smallodertext-embedding-3-large) sollten Sie die Codierung"cl100k_base"verwenden.Verschiedene Modelle können unterschiedliche Codierungen erfordern — sehen Sie bei Unsicherheit immer in der Modelldokumentation nach.
---
Warum das Zählen von Token wichtig ist
Wenn Ihre Zeichenkette die maximale Eingabegröße des Modells überschreitet, schlägt Ihre API-Anfrage fehl.
Das genaue Zählen von Token im Voraus sorgt für reibungslosere Embedding-Workflows und verhindert Fehler bei der Verarbeitung.
---
