文字列を埋め込み用に送信する前に、OpenAI の tiktoken トークナイザーライブラリ を適用して、使用されるトークン数を推定できます。
これは、埋め込みモデル(text-embedding-3-small など)には、収める必要のある最大トークン制限があるため、特に役立ちます。
---
tiktoken でトークンをカウントする方法
tiktoken Python パッケージを使用して、文字列が生成するトークン数を計算できます。
サンプルコードスニペットを示します:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)重要:
第 3 世代の埋め込みモデル(例:
text-embedding-3-smallまたはtext-embedding-3-large)では、"cl100k_base"エンコーディングを使用してください。モデルによって必要なエンコーディングが異なる場合があります。不明な場合は、必ずモデルのドキュメントを参照してください。
---
トークン数のカウントが重要な理由
文字列がモデルの最大入力サイズを超えると、API リクエストは失敗します。
事前にトークン数を正確にカウントすることで、埋め込みワークフローがよりスムーズになり、処理中のエラーを防げます。
---
