OpenAI
このページは機械翻訳されています。元の英語の記事を表示

埋め込み前に文字列のトークン数を確認する方法

埋め込みのトークン計算/概算

更新日: 11 days ago

文字列を埋め込み用に送信する前に、OpenAI の tiktoken トークナイザーライブラリ を適用して、使用されるトークン数を推定できます。

これは、埋め込みモデル(text-embedding-3-small など)には、収める必要のある最大トークン制限があるため、特に役立ちます。

---

tiktoken でトークンをカウントする方法

tiktoken Python パッケージを使用して、文字列が生成するトークン数を計算できます。

サンプルコードスニペットを示します:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

重要

  • 第 3 世代の埋め込みモデル(例: text-embedding-3-small または text-embedding-3-large)では、"cl100k_base" エンコーディングを使用してください。

  • モデルによって必要なエンコーディングが異なる場合があります。不明な場合は、必ずモデルのドキュメントを参照してください。

---

トークン数のカウントが重要な理由

  • 文字列がモデルの最大入力サイズを超えると、API リクエストは失敗します。

  • 事前にトークン数を正確にカウントすることで、埋め込みワークフローがよりスムーズになり、処理中のエラーを防げます。

---

この記事は役に立ちましたか?