Wie kann ich vor dem Einbetten erkennen, wie viele Token eine Zeichenkette haben wird?

Bevor Sie eine Zeichenkette zum Embedding senden, können Sie abschätzen, wie viele Token sie verwendet, indem Sie die tiktoken-Tokenizer-Bibliothek von OpenAI nutzen.

Das ist besonders nützlich, da Embedding-Modelle (wie text-embedding-3-small) maximale Token-Limits haben, die Sie einhalten müssen.

---

Token mit Tiktoken zählen

Sie können das Python-Paket tiktoken verwenden, um die Anzahl der Token zu berechnen, die eine Zeichenkette erzeugt.

Hier ist ein Beispiel-Code-Snippet:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Wichtig:

Für Embedding-Modelle der dritten Generation (z. B. text-embedding-3-small oder text-embedding-3-large) sollten Sie die Codierung "cl100k_base" verwenden.
Verschiedene Modelle können unterschiedliche Codierungen erfordern — sehen Sie bei Unsicherheit immer in der Modelldokumentation nach.

---

Warum das Zählen von Token wichtig ist

Wenn Ihre Zeichenkette die maximale Eingabegröße des Modells überschreitet, schlägt Ihre API-Anfrage fehl.
Das genaue Zählen von Token im Voraus sorgt für reibungslosere Embedding-Workflows und verhindert Fehler bei der Verarbeitung.

---

Wie kann ich vor dem Einbetten erkennen, wie viele Token eine Zeichenkette haben wird?

Token mit Tiktoken zählen

Warum das Zählen von Token wichtig ist

Hilfreiche Links

War dieser Artikel hilfreich?