Avant d’envoyer une chaîne pour l’intégration, vous pouvez estimer le nombre de tokens qu’elle utilisera en appliquant la bibliothèque de tokenisation tiktoken d’OpenAI.
C’est particulièrement utile, car les modèles d’intégration (comme text-embedding-3-small) ont des limites maximales de tokens que vous devrez respecter.
---
Comment compter les tokens avec Tiktoken
Vous pouvez utiliser le paquet Python tiktoken pour calculer le nombre de tokens qu’une chaîne générera.
Voici un exemple d’extrait de code :
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Retourne le nombre de tokens dans une chaîne de texte."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Exemple d’utilisation
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Important :
Pour les modèles d’intégration de troisième génération (p. ex.,
text-embedding-3-smalloutext-embedding-3-large), vous devriez utiliser l’encodage"cl100k_base".Différents modèles peuvent nécessiter différents encodages — consultez toujours la documentation du modèle en cas de doute.
---
Pourquoi le comptage des tokens est important
Si votre chaîne dépasse la taille d’entrée maximale du modèle, votre requête API échouera.
Compter précisément les tokens à l’avance assure des flux de travail d’intégration plus fluides et prévient les erreurs pendant le traitement.
---
