OpenAI
此頁面由機器翻譯。查看原始英文文章

在嘗試嵌入字串之前,如何得知它會有多少 Token?

計算/估算嵌入所需的 Token

更新日期:5 days ago

在傳送字串進行嵌入之前,你可以套用 OpenAI 的 tiktoken Token 化工具庫,估算它會使用多少 Token。

這特別實用,因為嵌入模型(例如 text-embedding-3-small)都有你必須遵守的最大 Token 限制。

---

如何使用 tiktoken 計算 Token

你可以使用 tiktoken Python 套件來計算字串會產生的 Token 數量。

以下是範例程式碼片段:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""傳回文字字串中的 Token 數量。"""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# 使用範例
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

重要

  • 對於第三代嵌入模型(例如 text-embedding-3-smalltext-embedding-3-large),你應使用 "cl100k_base" 編碼。

  • 不同模型可能需要不同的編碼;如果不確定,請務必參考模型文件。

---

為什麼 Token 計數很重要

  • 如果你的字串超過模型的最大輸入大小,API 請求將會失敗。

  • 事先準確計算 Token 數,可確保嵌入工作流程更順暢,並避免處理期間發生錯誤。

---

這篇文章有幫助嗎?