Στις 25 Ιανουαρίου 2024 κυκλοφορήσαμε δύο νέα μοντέλα embeddings: text-embedding-3-small και text-embedding-3-large. Αυτά είναι τα νεότερα και πιο αποδοτικά μοντέλα embedding μας, με χαμηλότερο κόστος, υψηλότερη πολύγλωσση απόδοση και μια νέα παράμετρο για συντόμευση των embeddings. Διαβάστε περισσότερα.
Τι διαφέρει στα πιο πρόσφατα μοντέλα embeddings;
Τα πιο πρόσφατα μοντέλα v3 προσφέρουν ισχυρότερες επιδόσεις σε κοινά benchmarks με χαμηλότερο κόστος. Μπορείτε να διαβάσετε περισσότερα για τις βελτιώσεις επιδόσεων στην ανάρτηση ανακοίνωσης στο blog και στην τεκμηρίωση για προγραμματιστές.
Πώς μπορώ να δω πόσα token θα έχει μια συμβολοσειρά πριν προσπαθήσω να τη μετατρέψω σε embedding;
Μπορείτε να χρησιμοποιήσετε το πακέτο Tiktoken της OpenAI για να ελέγξετε πόσα token θα έχει μια συμβολοσειρά. Μάθετε περισσότερα στον οδηγό προγραμματιστών για embeddings.
Πώς μπορώ να ανακτήσω γρήγορα τα K πλησιέστερα διανύσματα embedding;
Για γρήγορη αναζήτηση σε πολλά διανύσματα, συνιστούμε να χρησιμοποιήσετε μια βάση δεδομένων διανυσμάτων.
Ποια συνάρτηση απόστασης πρέπει να χρησιμοποιήσω;
Οι έξοδοι embeddings του OpenAI API κανονικοποιούνται σε μήκος 1 από προεπιλογή, ακόμη και μετά τη συντόμευση με την παράμετρο dimensions, πράγμα που σημαίνει ότι:
Τα OpenAI embeddings κανονικοποιούνται σε μήκος 1, πράγμα που σημαίνει ότι:
Η ομοιότητα συνημίτονου μπορεί να υπολογιστεί λίγο πιο γρήγορα χρησιμοποιώντας μόνο ένα εσωτερικό γινόμενο
Η ομοιότητα συνημίτονου και η ευκλείδεια απόσταση θα δώσουν πανομοιότυπη κατάταξη
