Como saber quantos tokens uma string terá antes de tentar gerar seu embedding?

Antes de enviar uma string para embedding, você pode estimar quantos tokens ela usará aplicando a biblioteca de tokenização tiktoken da OpenAI.

Isso é especialmente útil porque modelos de embedding (como text-embedding-3-small) têm limites máximos de tokens que você precisará respeitar.

---

Como contar tokens com tiktoken

Você pode usar o pacote Python tiktoken para calcular o número de tokens que uma string gerará.

Veja um exemplo de trecho de código:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Importante:

Para modelos de embedding de terceira geração (por exemplo, text-embedding-3-small ou text-embedding-3-large), você deve usar a codificação "cl100k_base".
Modelos diferentes podem exigir codificações diferentes — consulte sempre a documentação do modelo se não tiver certeza.

---

Por que a contagem de tokens é importante

Se sua string exceder o tamanho máximo de entrada do modelo, sua solicitação à API falhará.
Contar os tokens com precisão com antecedência garante fluxos de trabalho de embedding mais tranquilos e evita erros durante o processamento.

---

Como saber quantos tokens uma string terá antes de tentar gerar seu embedding?

Como contar tokens com tiktoken

Por que a contagem de tokens é importante

Links úteis

Este artigo foi útil?