OpenAI
Esta página foi traduzida automaticamente. Ver o artigo original em inglês.

FAQ sobre embeddings

FAQ sobre os novos modelos de embedding melhorados

Atualizado: 7 hours ago

Em 25 de janeiro de 2024, lançámos dois novos modelos de embeddings: text-embedding-3-small e text-embedding-3-large. Estes são os nossos modelos de embedding mais recentes e com melhor desempenho, com custos mais baixos, melhor desempenho multilingue e um novo parâmetro para encurtar embeddings. Leia mais.

O que há de diferente nos modelos de embeddings mais recentes?

Os nossos modelos v3 mais recentes oferecem um desempenho superior nos benchmarks comuns a um preço mais baixo. Pode ler mais sobre as melhorias de desempenho na publicação de anúncio no blogue e na documentação para programadores.

Como posso saber quantos tokens terá uma cadeia antes de tentar criar o embedding?

Pode usar o pacote Tiktoken da OpenAI para verificar quantos tokens terá uma cadeia. Saiba mais no nosso guia para programadores de embeddings.

Como posso obter rapidamente os K vetores de embedding mais próximos?

Para pesquisar rapidamente em muitos vetores, recomendamos a utilização de uma base de dados vetorial.

Que função de distância devo usar?

Recomendamos a similaridade de cosseno. Normalmente, a escolha da função de distância não faz muita diferença.

Os embeddings da OpenAI são normalizados para comprimento 1, o que significa que:

  • A similaridade de cosseno pode ser calculada de forma ligeiramente mais rápida usando apenas um produto escalar

  • A similaridade de cosseno e a distância euclidiana produzirão classificações idênticas

Este artigo foi útil?