OpenAI
Esta página foi traduzida automaticamente. Veja o artigo original em inglês.

FAQ de Embeddings

FAQ sobre os novos e aprimorados modelos de embedding

Atualizado: 3 days ago

Em 25 de janeiro de 2024, lançamos dois novos modelos de embeddings: text-embedding-3-small e text-embedding-3-large. Esses são nossos modelos de embedding mais novos e com melhor desempenho, com custos menores, melhor desempenho multilíngue e um novo parâmetro para encurtar embeddings. Leia mais.

O que mudou nos modelos de embeddings mais recentes?

Nossos modelos v3 mais recentes oferecem desempenho superior em benchmarks comuns, com preço reduzido. Você pode saber mais sobre as melhorias de desempenho no post de anúncio no blog e na documentação para desenvolvedores.

Como posso saber quantos tokens uma string terá antes de tentar gerar embeddings?

Você pode usar o pacote Tiktoken da OpenAI para verificar quantos tokens uma string terá. Saiba mais no nosso guia de embeddings para desenvolvedores.

Como posso recuperar rapidamente os K vetores de embedding mais próximos?

Para pesquisar rapidamente em muitos vetores, recomendamos usar um banco de dados vetorial.

Qual função de distância devo usar?

Recomendamos a similaridade do cosseno. Em geral, a escolha da função de distância não costuma fazer muita diferença.

Os embeddings da OpenAI são normalizados para comprimento 1, o que significa que:

  • A similaridade do cosseno pode ser calculada um pouco mais rápido usando apenas um produto escalar

  • A similaridade do cosseno e a distância euclidiana resultarão em classificações idênticas

Este artigo foi útil?