OpenAI
Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

Come posso sapere quanti token avrà una stringa prima di provare a generarne un embedding?

Calcolo/stima dei token per un embedding

Aggiornato: 18 days ago

Prima di inviare una stringa per l’embedding, puoi stimare quanti token userà applicando la libreria di tokenizer tiktoken di OpenAI.

Questo è particolarmente utile perché i modelli di embedding (come text-embedding-3-small) hanno limiti massimi di token entro cui dovrai rimanere.

---

Come contare i token con Tiktoken

Puoi usare il pacchetto Python tiktoken per calcolare il numero di token che una stringa genererà.

Ecco un esempio di frammento di codice:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Importante:

  • Per i modelli di embedding di terza generazione (ad es. text-embedding-3-small o text-embedding-3-large), dovresti usare la codifica "cl100k_base".

  • Modelli diversi possono richiedere codifiche diverse: in caso di dubbi, consulta sempre la documentazione del modello.

---

Perché il conteggio dei token è importante

  • Se la tua stringa supera la dimensione massima di input del modello, la richiesta API non riuscirà.

  • Contare accuratamente i token in anticipo assicura workflow di embedding più fluidi e previene errori durante l’elaborazione.

---

Questo articolo è stato utile?