Preguntas frecuentes sobre embeddings

El 25 de enero de 2024 lanzamos dos nuevos modelos de embeddings: text-embedding-3-small y text-embedding-3-large. Estos son nuestros modelos de embedding más recientes y de mayor rendimiento, con menores costes, mayor rendimiento multilingüe y un nuevo parámetro para acortar embeddings. Leer más.

¿Qué tienen de diferente los modelos de embeddings más recientes?

Nuestros modelos v3 más recientes ofrecen un rendimiento superior en benchmarks habituales a un precio reducido. Puedes leer más sobre las mejoras de rendimiento en la entrada del blog del anuncio y la documentación para desarrolladores.

¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar su embedding?

Puedes usar el paquete Tiktoken de OpenAI para comprobar cuántos tokens tendrá una cadena. Obtén más información en nuestra guía para desarrolladores sobre embeddings.

¿Cómo puedo recuperar rápidamente los K vectores de embedding más cercanos?

Para buscar rápidamente entre muchos vectores, recomendamos usar una base de datos vectorial.

¿Qué función de distancia debo usar?

Las salidas de embeddings de la API de OpenAI están normalizadas en L2 a longitud 1 de forma predeterminada, incluso después de acortarlas con el parámetro dimensions, lo que significa que:

Los embeddings de OpenAI están normalizados a longitud 1, lo que significa que:

La similitud coseno puede calcularse algo más rápido usando solo un producto escalar
La similitud coseno y la distancia euclidiana darán lugar a clasificaciones idénticas

Preguntas frecuentes sobre embeddings

¿Qué tienen de diferente los modelos de embeddings más recientes?

¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar su embedding?

¿Cómo puedo recuperar rápidamente los K vectores de embedding más cercanos?

¿Qué función de distancia debo usar?

¿Te ha resultado útil este artículo?