埋め込み前に文字列のトークン数を確認する方法

文字列を埋め込み用に送信する前に、OpenAI の tiktoken トークナイザーライブラリを適用して、使用されるトークン数を推定できます。

これは、埋め込みモデル（text-embedding-3-small など）には、収める必要のある最大トークン制限があるため、特に役立ちます。

---

tiktoken でトークンをカウントする方法

tiktoken Python パッケージを使用して、文字列が生成するトークン数を計算できます。

サンプルコードスニペットを示します：

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

重要：

第 3 世代の埋め込みモデル（例: text-embedding-3-small または text-embedding-3-large）では、"cl100k_base" エンコーディングを使用してください。
モデルによって必要なエンコーディングが異なる場合があります。不明な場合は、必ずモデルのドキュメントを参照してください。

---

トークン数のカウントが重要な理由

文字列がモデルの最大入力サイズを超えると、API リクエストは失敗します。
事前にトークン数を正確にカウントすることで、埋め込みワークフローがよりスムーズになり、処理中のエラーを防げます。

---

埋め込み前に文字列のトークン数を確認する方法

tiktoken でトークンをカウントする方法

トークン数のカウントが重要な理由

役立つリンク

この記事は役に立ちましたか？