Que sont les tokens ?

Les tokens sont les éléments de base du texte que les modèles OpenAI traitent. Ils peuvent être aussi courts qu’un seul caractère ou aussi longs qu’un mot entier, selon la langue et le contexte. Les espaces, la ponctuation et les mots partiels contribuent tous au nombre de tokens. C’est ainsi que l’API segmente votre texte en interne avant de générer une réponse.

Repères utiles pour l’anglais :

1 token ≈ 4 caractères
1 token ≈ ¾ de mot
100 tokens ≈ 75 mots
1 à 2 phrases ≈ 30 tokens
1 paragraphe ≈ 100 tokens
~1 500 mots ≈ 2 048 tokens

La tokenisation varie selon le modèle et l’encodage. Utilisez l’outil Tokenizer ou tiktoken.encoding_for_model(model) pour obtenir le décompte exact pour votre modèle cible.

Exemples

Voici quelques exemples de textes réels avec leur nombre approximatif de tokens :

La citation de Wayne Gretzky « Vous ratez 100 % des tirs que vous ne tentez pas » = 11 tokens
La charte d’OpenAI = 476 tokens
La Déclaration d’indépendance des États-Unis = 1 695 tokens

Comment le nombre de tokens est calculé

Lorsque vous envoyez du texte à l’API :

Le texte est divisé en tokens.
Le modèle traite ces tokens.
La réponse est générée sous forme de séquence de tokens, puis reconvertie en texte.

L’utilisation des tokens est suivie dans plusieurs catégories :

Tokens d’entrée – tokens présents dans votre requête.
Tokens de sortie – tokens générés dans la réponse.
Tokens mis en cache – tokens réutilisés dans l’historique de conversation (souvent facturés à un tarif réduit).
Tokens de raisonnement – dans certains modèles avancés, des « étapes de réflexion » supplémentaires sont incluses en interne avant la production de la sortie finale.

Ces nombres apparaissent dans les métadonnées de votre réponse API et sont utilisés pour la facturation et le suivi de l’utilisation.

Pour explorer davantage la tokenisation, vous pouvez utiliser notre outil Tokenizer interactif, qui vous permet de calculer le nombre de tokens et de voir comment le texte est découpé en tokens.

Sinon, si vous souhaitez tokeniser du texte de manière programmatique, utilisez Tiktoken, un tokenizer BPE rapide spécialement utilisé pour les modèles OpenAI.

Limites de tokens

Chaque modèle dispose d’une limite maximale combinée de tokens (entrée + sortie). Les modèles actuels à grande capacité prennent en charge jusqu’à des centaines de milliers de tokens en contexte, bien que les limites pratiques puissent varier selon la version du modèle et votre niveau d’utilisation.

Si vous dépassez la limite, vous pouvez :

Raccourcir ou reformuler les prompts.
Diviser les longs textes en fragments plus petits.
Résumer ou prétraiter les entrées avant de les envoyer.

Tarification des tokens

L’utilisation de l’API est facturée par token, avec un tarif qui varie selon le modèle et selon que les tokens sont en entrée, en sortie ou mis en cache. Consultez la page de tarification d’OpenAI pour connaître les tarifs actuels. Certains modèles de raisonnement peuvent utiliser davantage de tokens en interne, mais visent à améliorer l’efficacité en réduisant le nombre de tokens nécessaires par tâche terminée.

Explorer les tokens

L’API traite les mots selon leur contexte dans les données du corpus. Les modèles prennent le prompt, convertissent l’entrée en une liste de tokens, traitent le prompt, puis reconvertissent les tokens prédits en mots que nous voyons dans la réponse.

Ce qui peut nous sembler être deux mots identiques peut être généré sous forme de tokens différents selon leur structure dans le texte. Voyez comment l’API génère des valeurs de tokens pour le mot « red » en fonction de son contexte dans le texte :

Sentence split into color-coded tokens with Text selected over Token IDs

Token ID output as a list of integers with the Token IDs tab selected

Dans le premier exemple ci-dessus, le token « 2266 » pour « red » inclut un espace de fin (Remarque : il s’agit d’ID de tokens fournis à titre d’exemple pour la démonstration).

Sentence split into color-coded token blocks: My favorite color is Red.

Tokenizer output with Token IDs selected and a list of numeric token IDs

Le token « 2296 » pour « Red » (avec un espace initial et une majuscule au début) est différent du token « 2266 » pour « red » avec une minuscule.

Tokenizer example splitting “Red is my favorite color.” into color-coded tokens

Tokenizer output with Token IDs selected and a list of token ID numbers

Lorsque « Red » est utilisé au début d’une phrase, le token généré n’inclut pas d’espace initial. Le token « 7738 » est différent des deux exemples précédents du mot.

Observations :

Plus un token est probable/fréquent, plus le numéro de token qui lui est attribué est bas :

Le token généré pour le point est le même (« 13 ») dans les 3 phrases. Cela s’explique par le fait que, contextuellement, le point est utilisé de manière assez similaire dans l’ensemble des données du corpus.
Le token généré pour « red » varie selon son emplacement dans la phrase :
- Minuscule au milieu d’une phrase : « red » - (token : « 2266 »)
- Majuscule au milieu d’une phrase : « Red » - (token : « 2297 »)
- Majuscule au début d’une phrase : « Red » - (token : « 7738 »)

Que sont les tokens et comment les compter ?