Sebelum mengirim string untuk embedding, Anda dapat memperkirakan berapa banyak token yang akan digunakan dengan menerapkan pustaka tokenizer tiktoken dari OpenAI.
Ini sangat berguna karena model embedding (seperti text-embedding-3-small) memiliki batas token maksimum yang perlu Anda patuhi.
---
Cara Menghitung Token dengan Tiktoken
Anda dapat menggunakan paket Python tiktoken untuk menghitung jumlah token yang akan dihasilkan sebuah string.
Berikut cuplikan kode contoh:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Penting:
Untuk model embedding generasi ketiga (misalnya,
text-embedding-3-smallatautext-embedding-3-large), gunakan encoding"cl100k_base".Model yang berbeda mungkin memerlukan encoding yang berbeda — selalu rujuk dokumentasi model jika ragu.
---
Mengapa Penghitungan Token Penting
Jika string Anda melebihi ukuran input maksimum model, permintaan API Anda akan gagal.
Menghitung token secara akurat sebelumnya memastikan alur kerja embedding lebih lancar dan mencegah kesalahan saat pemrosesan.
---
