Antes de enviar uma string para incorporação, pode estimar quantos tokens vai usar aplicando a biblioteca de tokenização tiktoken da OpenAI.
Isto é especialmente útil porque os modelos de incorporação (como text-embedding-3-small) têm limites máximos de tokens que terá de respeitar.
Como contar tokens com Tiktoken
Pode usar o pacote Python tiktoken para calcular o número de tokens que uma string vai gerar.
Aqui está um exemplo de trecho de código:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Devolve o número de tokens numa string de texto."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Exemplo de utilização
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Importante:
Para modelos de incorporação de terceira geração (por exemplo,
text-embedding-3-smalloutext-embedding-3-large), deve usar a codificação"cl100k_base".Modelos diferentes podem exigir codificações diferentes — consulte sempre a documentação do modelo em caso de dúvida.
Porque é importante contar tokens
Se a sua string exceder o tamanho máximo de entrada do modelo, o pedido à API irá falhar.
Contar os tokens com precisão antecipadamente garante fluxos de trabalho de incorporação mais fluidos e evita erros durante o processamento.
