OpenAI
Halaman ini diterjemahkan oleh mesin. Lihat artikel asli dalam bahasa Inggris.

Bagaimana cara mengetahui berapa banyak token yang dimiliki sebuah string sebelum saya mencoba melakukan embedding?

Menghitung/memperkirakan token untuk sebuah embedding

Diperbarui: 13 days ago

Sebelum mengirim sebuah string untuk embedding, Anda dapat memperkirakan berapa banyak token yang akan digunakan dengan memakai library tokenizer tiktoken dari OpenAI.

Ini sangat berguna karena model embedding (seperti text-embedding-3-small) memiliki batas maksimum token yang perlu Anda patuhi.


Cara Menghitung Token dengan Tiktoken

Anda dapat menggunakan paket Python tiktoken untuk menghitung jumlah token yang akan dihasilkan oleh sebuah string.

Berikut contoh potongan kode:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Mengembalikan jumlah token dalam sebuah string teks."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Penting:

  • Untuk model embedding generasi ketiga (mis., text-embedding-3-small atau text-embedding-3-large), Anda sebaiknya menggunakan encoding "cl100k_base".

  • Model yang berbeda mungkin memerlukan encoding yang berbeda — selalu rujuk dokumentasi model jika tidak yakin.


Mengapa Penghitungan Token Itu Penting

  • Jika string Anda melebihi ukuran input maksimum model, permintaan API Anda akan gagal.

  • Menghitung token secara akurat sejak awal memastikan alur kerja embedding lebih lancar dan mencegah error saat pemrosesan.


Tautan Bermanfaat

Apakah artikel ini membantu?