2024 年 1 月 25 日に、2 つの新しい埋め込みモデル text-embedding-3-small と text-embedding-3-large をリリースしました。これらは、低コストで、多言語性能が高く、埋め込みを短縮するための新しいパラメーターを備えた、当社の最新かつ最高性能の埋め込みモデルです。続きを読む。
最新の埋め込みモデルの違い
当社の最新 v3 モデルは、一般的なベンチマークで、より低価格ながら優れた性能を発揮します。性能向上の詳細については、発表ブログ記事と開発者向けドキュメントをご覧ください。
文字列を埋め込む前に、そのトークン数を確認する方法
文字列のトークン数を確認するには、OpenAI の Tiktoken パッケージを使用できます。詳しくは、埋め込み開発者ガイドをご覧ください。
K 個の最近傍埋め込みベクトルをすばやく取得する方法
多くのベクトルを高速に検索するには、ベクトルデータベースの使用をおすすめします。
使用すべき距離関数
OpenAI API の埋め込み出力は、dimensions パラメーターで短縮した後も含め、デフォルトで長さ 1 に L2 正規化されます。つまり、次のことを意味します。
OpenAI の埋め込みは長さ 1 に正規化されています。つまり、次のことを意味します。
コサイン類似度は、ドット積だけを使ってわずかに高速に計算可能
コサイン類似度とユークリッド距離では同一のランキングになる
