Comment savoir combien de tokens une chaîne aura avant d’essayer de l’intégrer ?

Avant d’envoyer une chaîne pour un embedding, vous pouvez estimer combien de tokens elle utilisera en appliquant la bibliothèque de tokenisation tiktoken d’OpenAI.

C’est particulièrement utile, car les modèles d’embedding (comme text-embedding-3-small) ont des limites maximales de tokens que vous devrez respecter.

---

Comment compter les tokens avec Tiktoken

Vous pouvez utiliser le package Python tiktoken pour calculer le nombre de tokens qu’une chaîne générera.

Voici un exemple d’extrait de code :

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Important :

Pour les modèles d’embedding de troisième génération (par exemple text-embedding-3-small ou text-embedding-3-large), vous devez utiliser l’encodage "cl100k_base".
Différents modèles peuvent nécessiter différents encodages : consultez toujours la documentation du modèle en cas de doute.

---

Pourquoi le comptage des tokens est important

Si votre chaîne dépasse la taille d’entrée maximale du modèle, votre requête API échouera.
Compter précisément les tokens à l’avance garantit des workflows d’embedding plus fluides et évite les erreurs pendant le traitement.

---

Comment savoir combien de tokens une chaîne aura avant d’essayer de l’intégrer ?

Comment compter les tokens avec Tiktoken

Pourquoi le comptage des tokens est important

Liens utiles

Cet article vous a-t-il été utile ?