OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Wie kann ich vor dem Einbetten feststellen, wie viele Token ein String haben wird?

Token für ein Embedding berechnen/abschätzen

Aktualisiert: 2 days ago

Bevor du einen String zum Einbetten sendest, kannst du schätzen, wie viele Token er verbraucht, indem du die tiktoken-Tokenizer-Bibliothek von OpenAI verwendest.

Das ist besonders nützlich, weil Embedding-Modelle (wie text-embedding-3-small) maximale Token-Limits haben, die du einhalten musst.


So zählst du Token mit Tiktoken

Du kannst das Python-Paket tiktoken verwenden, um zu berechnen, wie viele Token ein String erzeugt.

Hier ist ein Beispiel-Code-Snippet:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Gibt die Anzahl der Token in einem Text-String zurück."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Beispielverwendung
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Wichtig:

  • Für Embedding-Modelle der dritten Generation (z. B. text-embedding-3-small oder text-embedding-3-large) solltest du das Encoding "cl100k_base" verwenden.

  • Verschiedene Modelle können unterschiedliche Encodings erfordern — im Zweifel schau immer in die Modelldokumentation.


Warum Token-Zählen wichtig ist

  • Wenn dein String die maximale Eingabegröße des Modells überschreitet, schlägt deine API-Anfrage fehl.

  • Token im Voraus korrekt zu zählen sorgt für reibungslosere Embedding-Workflows und verhindert Fehler bei der Verarbeitung.


Hilfreiche Links

War dieser Artikel hilfreich?