OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

FAQ zu Embeddings

FAQ zu den neuen und verbesserten Embedding-Modellen

Aktualisiert: 11 days ago

Am 25. Januar 2024 haben wir zwei neue Embedding-Modelle veröffentlicht: text-embedding-3-small und text-embedding-3-large. Dies sind unsere neuesten und leistungsstärksten Embedding-Modelle mit niedrigeren Kosten, höherer mehrsprachiger Leistung und einem neuen Parameter zum Kürzen von Embeddings. Mehr erfahren.

Was ist anders an den neuesten Embedding-Modellen?

Unsere neuesten v3-Modelle bieten eine stärkere Leistung bei gängigen Benchmarks zu einem niedrigeren Preis. Mehr über die Leistungsverbesserungen erfährst du im Ankündigungs-Blogbeitrag und in der Dokumentation für Entwickler:innen.

Wie kann ich vor dem Einbetten feststellen, wie viele Token ein String haben wird?

Du kannst das Tiktoken-Paket von OpenAI verwenden, um zu prüfen, wie viele Token ein String haben wird. Weitere Informationen findest du in unserem Leitfaden für Embeddings.

Wie kann ich die K nächstgelegenen Embedding-Vektoren schnell abrufen?

Für die schnelle Suche über viele Vektoren empfehlen wir die Verwendung einer Vektordatenbank.

Welche Distanzfunktion sollte ich verwenden?

Embedding-Ausgaben der OpenAI API sind standardmäßig L2-normalisiert auf Länge 1, auch nach dem Kürzen mit dem Parameter dimensions. Das bedeutet:

OpenAI-Embeddings sind auf Länge 1 normalisiert. Das bedeutet:

  • Die Kosinus-Ähnlichkeit kann mit nur einem Skalarprodukt etwas schneller berechnet werden

  • Kosinus-Ähnlichkeit und euklidische Distanz führen zu identischen Rankings

War dieser Artikel hilfreich?