OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Wie kann ich vor dem Einbetten erkennen, wie viele Token eine Zeichenkette haben wird?

Token für ein Embedding berechnen/abschätzen

Aktualisiert: 12 days ago

Bevor Sie eine Zeichenkette zum Embedding senden, können Sie abschätzen, wie viele Token sie verwendet, indem Sie die tiktoken-Tokenizer-Bibliothek von OpenAI nutzen.

Das ist besonders nützlich, da Embedding-Modelle (wie text-embedding-3-small) maximale Token-Limits haben, die Sie einhalten müssen.

---

Token mit Tiktoken zählen

Sie können das Python-Paket tiktoken verwenden, um die Anzahl der Token zu berechnen, die eine Zeichenkette erzeugt.

Hier ist ein Beispiel-Code-Snippet:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Wichtig:

  • Für Embedding-Modelle der dritten Generation (z. B. text-embedding-3-small oder text-embedding-3-large) sollten Sie die Codierung "cl100k_base" verwenden.

  • Verschiedene Modelle können unterschiedliche Codierungen erfordern — sehen Sie bei Unsicherheit immer in der Modelldokumentation nach.

---

Warum das Zählen von Token wichtig ist

  • Wenn Ihre Zeichenkette die maximale Eingabegröße des Modells überschreitet, schlägt Ihre API-Anfrage fehl.

  • Das genaue Zählen von Token im Voraus sorgt für reibungslosere Embedding-Workflows und verhindert Fehler bei der Verarbeitung.

---

War dieser Artikel hilfreich?