OpenAI
このページは機械翻訳されています。元の英語の記事を表示

Embeddings FAQ

新しく改良された埋め込みモデルに関する FAQ

更新日: 9 days ago

2024 年 1 月 25 日に、2 つの新しい埋め込みモデル text-embedding-3-smalltext-embedding-3-large をリリースしました。これらは、低コストで、多言語性能が高く、埋め込みを短縮するための新しいパラメーターを備えた、当社の最新かつ最高性能の埋め込みモデルです。続きを読む

最新の埋め込みモデルの違い

当社の最新 v3 モデルは、一般的なベンチマークで、より低価格ながら優れた性能を発揮します。性能向上の詳細については、発表ブログ記事開発者向けドキュメントをご覧ください。

文字列を埋め込む前に、そのトークン数を確認する方法

文字列のトークン数を確認するには、OpenAI の Tiktoken パッケージを使用できます。詳しくは、埋め込み開発者ガイドをご覧ください。

K 個の最近傍埋め込みベクトルをすばやく取得する方法

多くのベクトルを高速に検索するには、ベクトルデータベースの使用をおすすめします。

使用すべき距離関数

OpenAI API の埋め込み出力は、dimensions パラメーターで短縮した後も含め、デフォルトで長さ 1 に L2 正規化されます。つまり、次のことを意味します。

OpenAI の埋め込みは長さ 1 に正規化されています。つまり、次のことを意味します。

  • コサイン類似度は、ドット積だけを使ってわずかに高速に計算可能

  • コサイン類似度とユークリッド距離では同一のランキングになる

この記事は役に立ちましたか?