Preguntas frecuentes sobre embeddings

El 25 de enero de 2024, lanzamos dos nuevos modelos de embeddings: text-embedding-3-small y text-embedding-3-large. Estos son nuestros modelos de embeddings más nuevos y con mejor rendimiento, con costos más bajos, mayor rendimiento multilingüe y un nuevo parámetro para acortar embeddings. Lee más.

¿Qué tienen de diferente los modelos de embeddings más recientes?

Nuestros modelos v3 más recientes ofrecen un mejor rendimiento en benchmarks comunes a un precio reducido. Puedes leer más sobre las mejoras de rendimiento en la publicación del blog del anuncio y la documentación para desarrolladores.

¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar su embedding?

Puedes usar el paquete Tiktoken de OpenAI para comprobar cuántos tokens tendrá una cadena. Obtén más información en nuestra guía para desarrolladores sobre embeddings.

¿Cómo puedo recuperar rápidamente los K vectores de embedding más cercanos?

Para buscar rápidamente entre muchos vectores, recomendamos usar una base de datos vectorial.

¿Qué función de distancia debo usar?

Las salidas de embeddings de la API de OpenAI están normalizadas en L2 a una longitud de 1 de forma predeterminada, incluso después de acortarlas con el parámetro dimensions, lo que significa que:

Los embeddings de OpenAI están normalizados a una longitud de 1, lo que significa que:

La similitud coseno se puede calcular un poco más rápido usando solo un producto punto
La similitud coseno y la distancia euclidiana producirán clasificaciones idénticas

Preguntas frecuentes sobre embeddings

¿Qué tienen de diferente los modelos de embeddings más recientes?

¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar su embedding?

¿Cómo puedo recuperar rápidamente los K vectores de embedding más cercanos?

¿Qué función de distancia debo usar?

¿Este artículo te fue útil?