Embeddings FAQ

2024 年 1 月 25 日に、2 つの新しい埋め込みモデル text-embedding-3-small と text-embedding-3-large をリリースしました。これらは、低コストで、多言語性能が高く、埋め込みを短縮するための新しいパラメーターを備えた、当社の最新かつ最高性能の埋め込みモデルです。続きを読む。

文字列を埋め込む前に、そのトークン数を確認する方法

文字列のトークン数を確認するには、OpenAI の Tiktoken パッケージを使用できます。詳しくは、埋め込み開発者ガイドをご覧ください。

K 個の最近傍埋め込みベクトルをすばやく取得する方法

多くのベクトルを高速に検索するには、ベクトルデータベースの使用をおすすめします。

使用すべき距離関数

OpenAI API の埋め込み出力は、dimensions パラメーターで短縮した後も含め、デフォルトで長さ 1 に L2 正規化されます。つまり、次のことを意味します。

OpenAI の埋め込みは長さ 1 に正規化されています。つまり、次のことを意味します。

コサイン類似度は、ドット積だけを使ってわずかに高速に計算可能
コサイン類似度とユークリッド距離では同一のランキングになる

最新の埋め込みモデルの違い

文字列を埋め込む前に、そのトークン数を確認する方法

K 個の最近傍埋め込みベクトルをすばやく取得する方法

使用すべき距離関数

この記事は役に立ちましたか？