OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

Como posso saber quantos tokens uma string terá antes de tentar incorporá-la?

Calcular/aproximar tokens para uma incorporação

Atualizado: 10 days ago

Antes de enviar uma cadeia de caracteres para embedding, pode estimar quantos tokens irá utilizar aplicando a biblioteca de tokenização tiktoken da OpenAI.

Isto é especialmente útil porque os modelos de embeddings (como text-embedding-3-small) têm limites máximos de tokens que terá de respeitar.

---

Como contar tokens com o Tiktoken

Pode usar o pacote Python tiktoken para calcular o número de tokens que uma cadeia de caracteres irá gerar.

Segue-se um exemplo de fragmento de código:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Devolve o número de tokens numa string de texto."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Exemplo de utilização
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Importante:

  • Para modelos de embeddings de terceira geração (por exemplo, text-embedding-3-small ou text-embedding-3-large), deve usar a codificação "cl100k_base".

  • Modelos diferentes podem exigir codificações diferentes — consulte sempre a documentação do modelo se tiver dúvidas.

---

Porque é importante contar tokens

  • Se a sua cadeia de caracteres exceder o tamanho máximo de entrada do modelo, o seu pedido à API irá falhar.

  • Contar tokens com precisão antecipadamente garante fluxos de trabalho de embeddings mais fluidos e evita erros durante o processamento.

---

Este artigo foi útil?