Avant d’envoyer une chaîne pour un embedding, vous pouvez estimer le nombre de tokens qu’elle utilisera en appliquant la bibliothèque de tokenisation tiktoken d’OpenAI.
C’est particulièrement utile, car les modèles d’embedding (comme text-embedding-3-small) ont des limites maximales de tokens qu’il faut respecter.
Comment compter les tokens avec Tiktoken
Vous pouvez utiliser le package Python tiktoken pour calculer le nombre de tokens qu’une chaîne va générer.
Voici un exemple d’extrait de code :
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Renvoie le nombre de tokens dans une chaîne de texte."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Important :
Pour les modèles d’embedding de troisième génération (p. ex.
text-embedding-3-smalloutext-embedding-3-large), vous devez utiliser l’encodage"cl100k_base".Selon les modèles, des encodages différents peuvent être nécessaires — en cas de doute, reportez-vous toujours à la documentation du modèle.
Pourquoi le comptage des tokens est important
Si votre chaîne dépasse la taille maximale d’entrée du modèle, votre requête API échouera.
Compter précisément les tokens à l’avance garantit des workflows d’embedding plus fluides et évite des erreurs pendant le traitement.
