Bagaimana cara mengetahui berapa banyak token yang akan dimiliki string sebelum saya mencoba menyematkannya?

Sebelum mengirim string untuk embedding, Anda dapat memperkirakan berapa banyak token yang akan digunakan dengan menerapkan pustaka tokenizer tiktoken dari OpenAI.

Ini sangat berguna karena model embedding (seperti text-embedding-3-small) memiliki batas token maksimum yang perlu Anda patuhi.

---

Cara Menghitung Token dengan Tiktoken

Anda dapat menggunakan paket Python tiktoken untuk menghitung jumlah token yang akan dihasilkan sebuah string.

Berikut cuplikan kode contoh:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Penting:

Untuk model embedding generasi ketiga (misalnya, text-embedding-3-small atau text-embedding-3-large), gunakan encoding "cl100k_base".
Model yang berbeda mungkin memerlukan encoding yang berbeda — selalu rujuk dokumentasi model jika ragu.

---

Mengapa Penghitungan Token Penting

Jika string Anda melebihi ukuran input maksimum model, permintaan API Anda akan gagal.
Menghitung token secara akurat sebelumnya memastikan alur kerja embedding lebih lancar dan mencegah kesalahan saat pemrosesan.

---

Bagaimana cara mengetahui berapa banyak token yang akan dimiliki string sebelum saya mencoba menyematkannya?

Cara Menghitung Token dengan Tiktoken

Mengapa Penghitungan Token Penting

Tautan Bermanfaat

Apakah artikel ini membantu?