OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

Comment savoir combien de tokens une chaîne contiendra avant d’essayer de l’encoder en embedding?

Calcul/estimation du nombre de tokens pour un embedding

Dernière mise à jour : 2 days ago

Avant d’envoyer une chaîne pour un embedding, vous pouvez estimer le nombre de tokens qu’elle utilisera en appliquant la bibliothèque de tokenisation tiktoken d’OpenAI.

C’est particulièrement utile, car les modèles d’embedding (comme text-embedding-3-small) ont des limites maximales de tokens qu’il faut respecter.


Comment compter les tokens avec Tiktoken

Vous pouvez utiliser le package Python tiktoken pour calculer le nombre de tokens qu’une chaîne va générer.

Voici un exemple d’extrait de code :

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Renvoie le nombre de tokens dans une chaîne de texte."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Important :

  • Pour les modèles d’embedding de troisième génération (p. ex. text-embedding-3-small ou text-embedding-3-large), vous devez utiliser l’encodage "cl100k_base".

  • Selon les modèles, des encodages différents peuvent être nécessaires — en cas de doute, reportez-vous toujours à la documentation du modèle.


Pourquoi le comptage des tokens est important

  • Si votre chaîne dépasse la taille maximale d’entrée du modèle, votre requête API échouera.

  • Compter précisément les tokens à l’avance garantit des workflows d’embedding plus fluides et évite des erreurs pendant le traitement.


Liens utiles

Cet article vous a-t-il été utile ?