OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

Was sind Tokens und wie zählt man sie?

Aktualisiert: yesterday

Was sind Tokens?

Tokens sind die Bausteine von Text, die OpenAI-Modelle verarbeiten. Sie können je nach Sprache und Kontext nur ein einzelnes Zeichen oder ein ganzes Wort umfassen. Leerzeichen, Satzzeichen und Wortbestandteile zählen alle zur Token-Anzahl. So segmentiert die API deinen Text intern, bevor sie eine Antwort generiert.

Nützliche Faustregeln für Englisch:

  • 1 Token ≈ 4 Zeichen

  • 1 Token ≈ ¾ Wort

  • 100 Tokens ≈ 75 Wörter

  • 1–2 Sätze ≈ 30 Tokens

  • 1 Absatz ≈ 100 Tokens

  • ~1.500 Wörter ≈ 2.048 Tokens

Die Tokenisierung unterscheidet sich je nach Modell und Encoding. Verwende das Tokenizer-Tool oder tiktoken.encoding_for_model(model), um die genaue Anzahl für dein Zielmodell zu erhalten.

Beispiele

Hier sind einige Textbeispiele aus der Praxis mit ihrer ungefähren Token-Anzahl:

  • Wayne Gretzkys Zitat „Du verfehlst 100 % der Schüsse, die du nicht machst“ = 11 Tokens

  • Die OpenAI Charter = 476 Tokens

  • Die Unabhängigkeitserklärung der USA = 1.695 Tokens

Wie Token-Anzahlen berechnet werden

Wenn du Text an die API sendest:

  1. Der Text wird in Tokens aufgeteilt.

  2. Das Modell verarbeitet diese Tokens.

  3. Die Antwort wird als Folge von Tokens generiert und anschließend wieder in Text umgewandelt.

Die Token-Nutzung wird in mehreren Kategorien erfasst:

  • Eingabe-Tokens – Tokens in deiner Anfrage.

  • Ausgabe-Tokens – Tokens, die in der Antwort generiert werden.

  • Zwischengespeicherte Tokens – wiederverwendete Tokens aus dem Gesprächsverlauf (oft zu einem reduzierten Preis abgerechnet).

  • Reasoning-Tokens – bei einigen fortgeschrittenen Modellen werden intern zusätzliche „Denkschritte“ einbezogen, bevor die endgültige Ausgabe erzeugt wird.

Diese Werte erscheinen in den Metadaten deiner API-Antwort und werden für Abrechnung und Nutzungsverfolgung verwendet.

Um die Tokenisierung genauer zu erkunden, kannst du unser interaktives Tokenizer-Tool nutzen. Damit kannst du die Anzahl der Tokens berechnen und sehen, wie Text in Tokens aufgeteilt wird.

Alternativ kannst du Tiktoken verwenden, wenn du Text programmgesteuert tokenisieren möchtest. Tiktoken ist ein schneller BPE-Tokenizer, der speziell für OpenAI-Modelle genutzt wird.

Token-Limits

Jedes Modell hat ein maximales kombiniertes Token-Limit (Eingabe + Ausgabe). Aktuelle Modelle mit hoher Kapazität unterstützen bis zu Hunderttausende Tokens im Kontext. Die praktischen Limits können jedoch je nach Modellversion und deiner Nutzungsstufe variieren.

Wenn du das Limit überschreitest, kannst du:

  • Prompts kürzen oder umformulieren.

  • Große Texte in kleinere Abschnitte aufteilen.

  • Eingaben zusammenfassen oder vorverarbeiten, bevor du sie sendest.

Token-Preise

Die API-Nutzung wird pro Token berechnet. Der Preis hängt vom Modell ab und davon, ob es sich um Eingabe-, Ausgabe- oder zwischengespeicherte Tokens handelt. Die aktuellen Preise findest du auf der Preisseite von OpenAI. Einige Reasoning-Modelle verwenden intern möglicherweise mehr Tokens, sollen aber die Effizienz verbessern, indem sie die Zahl der pro abgeschlossener Aufgabe benötigten Tokens reduzieren.

Tokens erkunden

Die API behandelt Wörter entsprechend ihrem Kontext in den Korpusdaten. Modelle nehmen den Prompt entgegen, wandeln die Eingabe in eine Liste von Tokens um, verarbeiten den Prompt und wandeln die vorhergesagten Tokens wieder in die Wörter um, die wir in der Antwort sehen.

Was für uns wie zwei identische Wörter aussieht, kann je nach Struktur im Text zu unterschiedlichen Tokens werden. Betrachte, wie die API abhängig vom Kontext im Text Token-Werte für das Wort „red“ generiert:

Sentence split into color-coded tokens with Text selected over Token IDs
Token ID output as a list of integers with the Token IDs tab selected

Im ersten Beispiel oben enthält das Token „2266“ für „ red“ ein Leerzeichen (Hinweis: Dies sind Beispiel-Token-IDs zu Demonstrationszwecken).

Sentence split into color-coded token blocks: My favorite color is Red.
Tokenizer output with Token IDs selected and a list of numeric token IDs

Das Token „2296“ für „ Red“ (mit vorangestelltem Leerzeichen und großem Anfangsbuchstaben) unterscheidet sich vom Token „2266“ für „ red“ mit Kleinbuchstaben.

Tokenizer example splitting “Red is my favorite color.” into color-coded tokens
Tokenizer output with Token IDs selected and a list of token ID numbers

Wenn „Red“ am Satzanfang verwendet wird, enthält das generierte Token kein vorangestelltes Leerzeichen. Das Token „7738“ unterscheidet sich von den beiden vorherigen Beispielen für das Wort.

Beobachtungen:

Je wahrscheinlicher oder häufiger ein Token ist, desto niedriger ist die ihm zugewiesene Token-Nummer:

  • Das für den Punkt generierte Token ist in allen 3 Sätzen gleich („13“). Das liegt daran, dass der Punkt in den Korpusdaten kontextuell ziemlich ähnlich verwendet wird.

  • Das für „red“ generierte Token variiert je nach Position im Satz:

    • Kleinbuchstaben in der Satzmitte: „ red“ - (Token: „2266“)

    • Großbuchstaben in der Satzmitte: „ Red“ - (Token: „2297“)

    • Großbuchstaben am Satzanfang: „Red“ - (Token: „7738“)

War dieser Artikel hilfreich?