2024 年 1 月 25 日、2 つの新しい埋め込みモデル text-embedding-3-small と text-embedding-3-large をリリースしました。これらは、コストを抑えつつ多言語性能を高め、埋め込みを短縮するための新しいパラメータを備えた、最新かつ最高性能の埋め込みモデルです。詳細はこちら。
最新の埋め込みモデルは何が違いますか?
最新の v3 モデルは、一般的なベンチマークでより高い性能を、より低価格で実現します。性能向上の詳細は、発表ブログ記事と開発者向けドキュメントをご覧ください。
文字列を埋め込む前に、トークン数を知るにはどうすればよいですか?
OpenAI の Tiktoken パッケージを使うと、文字列が何トークンになるかを確認できます。詳しくは、埋め込みの開発者ガイドをご覧ください。
K 個の最近傍埋め込みベクトルをすばやく取得するにはどうすればよいですか?
多数のベクトルを高速に検索するには、ベクトルデータベースの使用をおすすめします。
どの距離関数を使うべきですか?
OpenAI API の埋め込み出力は、dimensions パラメータで短縮した後も含め、デフォルトで長さ 1 に L2 正規化されています。つまり、次のことが言えます。
OpenAI の埋め込みは長さ 1 に正規化されているため、次のことが成り立ちます。
コサイン類似度は、内積だけを使ってわずかに高速に計算できます
コサイン類似度とユークリッド距離では、同一のランキング結果になります
