OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

FAQ sur les embeddings

FAQ sur les nouveaux modèles d’embeddings améliorés

Dernière mise à jour : 3 days ago

Le 25 janvier 2024, nous avons lancé deux nouveaux modèles d’embeddings : text-embedding-3-small et text-embedding-3-large. Ce sont nos modèles d’embeddings les plus récents et les plus performants, avec des coûts réduits, de meilleures performances multilingues et un nouveau paramètre pour raccourcir les embeddings. En savoir plus.

Qu’est-ce qui change avec les derniers modèles d’embeddings ?

Nos derniers modèles v3 offrent de meilleures performances sur les benchmarks courants à un prix réduit. Vous pouvez en savoir plus sur ces améliorations de performance dans l’article d’annonce et la documentation développeur.

Comment savoir combien de tokens une chaîne aura avant d’essayer de l’intégrer ?

Vous pouvez utiliser le package Tiktoken d’OpenAI pour vérifier combien de tokens une chaîne aura. Pour en savoir plus, consultez notre guide développeur sur les embeddings.

Comment récupérer rapidement les K vecteurs d’embeddings les plus proches ?

Pour effectuer rapidement des recherches sur un grand nombre de vecteurs, nous recommandons d’utiliser une base de données vectorielle.

Quelle fonction de distance dois-je utiliser ?

Les sorties d’embeddings de l’API OpenAI sont normalisées en L2 à une longueur de 1 par défaut, y compris après réduction avec le paramètre dimensions, ce qui signifie que :

Les embeddings OpenAI sont normalisés à une longueur de 1, ce qui signifie que :

  • la similarité cosinus peut être calculée légèrement plus rapidement à l’aide d’un simple produit scalaire

  • la similarité cosinus et la distance euclidienne produiront des classements identiques

Cet article vous a-t-il été utile ?