Sebelum mengirim sebuah string untuk embedding, Anda dapat memperkirakan berapa banyak token yang akan digunakan dengan memakai library tokenizer tiktoken dari OpenAI.
Ini sangat berguna karena model embedding (seperti text-embedding-3-small) memiliki batas maksimum token yang perlu Anda patuhi.
Cara Menghitung Token dengan Tiktoken
Anda dapat menggunakan paket Python tiktoken untuk menghitung jumlah token yang akan dihasilkan oleh sebuah string.
Berikut contoh potongan kode:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Mengembalikan jumlah token dalam sebuah string teks."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Penting:
Untuk model embedding generasi ketiga (mis.,
text-embedding-3-smallatautext-embedding-3-large), Anda sebaiknya menggunakan encoding"cl100k_base".Model yang berbeda mungkin memerlukan encoding yang berbeda — selalu rujuk dokumentasi model jika tidak yakin.
Mengapa Penghitungan Token Itu Penting
Jika string Anda melebihi ukuran input maksimum model, permintaan API Anda akan gagal.
Menghitung token secara akurat sejak awal memastikan alur kerja embedding lebih lancar dan mencegah error saat pemrosesan.
