Em 25 de janeiro de 2024, lançámos dois novos modelos de embeddings: text-embedding-3-small e text-embedding-3-large. Estes são os nossos modelos de embedding mais recentes e com melhor desempenho, com custos mais baixos, melhor desempenho multilingue e um novo parâmetro para encurtar embeddings. Leia mais.
O que há de diferente nos modelos de embeddings mais recentes?
Os nossos modelos v3 mais recentes oferecem um desempenho superior nos benchmarks comuns a um preço mais baixo. Pode ler mais sobre as melhorias de desempenho na publicação de anúncio no blogue e na documentação para programadores.
Como posso saber quantos tokens terá uma cadeia antes de tentar criar o embedding?
Pode usar o pacote Tiktoken da OpenAI para verificar quantos tokens terá uma cadeia. Saiba mais no nosso guia para programadores de embeddings.
Como posso obter rapidamente os K vetores de embedding mais próximos?
Para pesquisar rapidamente em muitos vetores, recomendamos a utilização de uma base de dados vetorial.
Que função de distância devo usar?
Recomendamos a similaridade de cosseno. Normalmente, a escolha da função de distância não faz muita diferença.
Os embeddings da OpenAI são normalizados para comprimento 1, o que significa que:
A similaridade de cosseno pode ser calculada de forma ligeiramente mais rápida usando apenas um produto escalar
A similaridade de cosseno e a distância euclidiana produzirão classificações idênticas
