Comment puis-je savoir combien de tokens une chaîne aura avant d’essayer de l’intégrer?

Avant d’envoyer une chaîne pour l’intégration, vous pouvez estimer le nombre de tokens qu’elle utilisera en appliquant la bibliothèque de tokenisation tiktoken d’OpenAI.

C’est particulièrement utile, car les modèles d’intégration (comme text-embedding-3-small) ont des limites maximales de tokens que vous devrez respecter.

---

Comment compter les tokens avec Tiktoken

Vous pouvez utiliser le paquet Python tiktoken pour calculer le nombre de tokens qu’une chaîne générera.

Voici un exemple d’extrait de code :

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Retourne le nombre de tokens dans une chaîne de texte."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Exemple d’utilisation
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Important :

Pour les modèles d’intégration de troisième génération (p. ex., text-embedding-3-small ou text-embedding-3-large), vous devriez utiliser l’encodage "cl100k_base".
Différents modèles peuvent nécessiter différents encodages — consultez toujours la documentation du modèle en cas de doute.

---

Pourquoi le comptage des tokens est important

Si votre chaîne dépasse la taille d’entrée maximale du modèle, votre requête API échouera.
Compter précisément les tokens à l’avance assure des flux de travail d’intégration plus fluides et prévient les erreurs pendant le traitement.

---

Comment puis-je savoir combien de tokens une chaîne aura avant d’essayer de l’intégrer?

Comment compter les tokens avec Tiktoken

Pourquoi le comptage des tokens est important

Liens utiles

Cet article vous a-t-il été utile?