El 25 de enero de 2024 lanzamos dos nuevos modelos de embeddings: text-embedding-3-small y text-embedding-3-large. Estos son nuestros modelos de embeddings más recientes y con mejor rendimiento, con costos más bajos, mayor rendimiento multilingüe y un nuevo parámetro para acortar embeddings. Lee más.
¿Qué cambia en los modelos de embeddings más recientes?
Nuestros modelos v3 más recientes ofrecen un rendimiento superior en benchmarks comunes a un precio más bajo. Puedes leer más sobre las mejoras de rendimiento en la publicación del anuncio en el blog y en la documentación para desarrolladores.
¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar su embedding?
Puedes usar el paquete Tiktoken de OpenAI para comprobar cuántos tokens tendrá una cadena. Obtén más información en nuestra guía para desarrolladores de embeddings.
¿Cómo puedo recuperar rápidamente los K vectores de embeddings más cercanos?
Para buscar rápidamente en muchos vectores, recomendamos usar una base de datos vectorial.
¿Qué función de distancia debería usar?
Recomendamos la similitud coseno. Por lo general, la elección de la función de distancia no importa demasiado.
Los embeddings de OpenAI están normalizados a longitud 1, lo que significa que:
La similitud coseno puede calcularse un poco más rápido usando solo un producto punto
La similitud coseno y la distancia euclidiana darán como resultado los mismos rankings
