Prima di inviare una stringa per l’embedding, puoi stimare quanti token userà applicando la libreria di tokenizer tiktoken di OpenAI.
Questo è particolarmente utile perché i modelli di embedding (come text-embedding-3-small) hanno limiti massimi di token entro cui dovrai rimanere.
---
Come contare i token con Tiktoken
Puoi usare il pacchetto Python tiktoken per calcolare il numero di token che una stringa genererà.
Ecco un esempio di frammento di codice:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Importante:
Per i modelli di embedding di terza generazione (ad es.
text-embedding-3-smallotext-embedding-3-large), dovresti usare la codifica"cl100k_base".Modelli diversi possono richiedere codifiche diverse: in caso di dubbi, consulta sempre la documentazione del modello.
---
Perché il conteggio dei token è importante
Se la tua stringa supera la dimensione massima di input del modello, la richiesta API non riuscirà.
Contare accuratamente i token in anticipo assicura workflow di embedding più fluidi e previene errori durante l’elaborazione.
---
