Come posso sapere quanti token avrà una stringa prima di provare a generarne un embedding?

Prima di inviare una stringa per l’embedding, puoi stimare quanti token userà applicando la libreria di tokenizer tiktoken di OpenAI.

Questo è particolarmente utile perché i modelli di embedding (come text-embedding-3-small) hanno limiti massimi di token entro cui dovrai rimanere.

---

Come contare i token con Tiktoken

Puoi usare il pacchetto Python tiktoken per calcolare il numero di token che una stringa genererà.

Ecco un esempio di frammento di codice:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Importante:

Per i modelli di embedding di terza generazione (ad es. text-embedding-3-small o text-embedding-3-large), dovresti usare la codifica "cl100k_base".
Modelli diversi possono richiedere codifiche diverse: in caso di dubbi, consulta sempre la documentazione del modello.

---

Perché il conteggio dei token è importante

Se la tua stringa supera la dimensione massima di input del modello, la richiesta API non riuscirà.
Contare accuratamente i token in anticipo assicura workflow di embedding più fluidi e previene errori durante l’elaborazione.

---

Come posso sapere quanti token avrà una stringa prima di provare a generarne un embedding?

Come contare i token con Tiktoken

Perché il conteggio dei token è importante

Link utili

Questo articolo è stato utile?