Em 25 de janeiro de 2024, lançámos dois novos modelos de embeddings: text-embedding-3-small e text-embedding-3-large. Estes são os nossos modelos de embeddings mais recentes e com melhor desempenho, com custos mais baixos, melhor desempenho multilingue e um novo parâmetro para encurtar embeddings. Leia mais.
O que há de diferente nos modelos de embeddings mais recentes?
Os nossos modelos v3 mais recentes oferecem um desempenho superior em benchmarks comuns a um preço reduzido. Pode ler mais sobre as melhorias de desempenho na publicação de anúncio no blogue e na documentação para programadores.
Como posso saber quantos tokens uma cadeia de caracteres terá antes de tentar gerar o seu embedding?
Pode utilizar o pacote Tiktoken da OpenAI para verificar quantos tokens uma cadeia de caracteres terá. Saiba mais no nosso guia para programadores sobre embeddings.
Como posso obter rapidamente os K vetores de embedding mais próximos?
Para pesquisar rapidamente em muitos vetores, recomendamos a utilização de uma base de dados vetorial.
Que função de distância devo utilizar?
As saídas de embeddings da API da OpenAI são normalizadas em L2 para comprimento 1 por predefinição, incluindo após o encurtamento com o parâmetro dimensions, o que significa que:
Os embeddings da OpenAI são normalizados para comprimento 1, o que significa que:
A similaridade de cosseno pode ser calculada ligeiramente mais rapidamente utilizando apenas um produto escalar
A similaridade de cosseno e a distância euclidiana produzirão ordenações idênticas
