FAQ sugli embeddings

Il 25 gennaio 2024 abbiamo rilasciato due nuovi modelli di embedding: text-embedding-3-small e text-embedding-3-large. Questi sono i nostri modelli di embedding più recenti e più performanti, con costi inferiori, prestazioni multilingue superiori e un nuovo parametro per accorciare gli embedding. Leggi di più.

Cosa cambia nei modelli di embedding più recenti?

I nostri ultimi modelli v3 offrono prestazioni migliori sui benchmark comuni a un prezzo ridotto. Puoi leggere ulteriori informazioni sui miglioramenti delle prestazioni nel post di annuncio sul blog e nella documentazione per sviluppatori.

Come posso sapere quanti token avrà una stringa prima di provare a incorporarla?

Puoi usare il pacchetto Tiktoken di OpenAI per verificare quanti token avrà una stringa. Scopri di più nella nostra guida per sviluppatori sugli embedding.

Come posso recuperare rapidamente i K vettori di embedding più vicini?

Per cercare rapidamente tra molti vettori, consigliamo di usare un database vettoriale.

Quale funzione di distanza dovrei usare?

Gli output di embedding dell’API OpenAI sono normalizzati L2 alla lunghezza 1 per impostazione predefinita, anche dopo l’accorciamento con il parametro dimensions, il che significa che:

Gli embedding OpenAI sono normalizzati alla lunghezza 1, il che significa che:

La similarità coseno può essere calcolata leggermente più velocemente usando solo un prodotto scalare
La similarità coseno e la distanza euclidea produrranno classifiche identiche

Cosa cambia nei modelli di embedding più recenti?

Come posso sapere quanti token avrà una stringa prima di provare a incorporarla?

Come posso recuperare rapidamente i K vettori di embedding più vicini?

Quale funzione di distanza dovrei usare?

Questo articolo è stato utile?