OpenAI
Trang này được dịch bằng máy học. Xem bài viết gốc bằng tiếng Anh.

Làm sao biết một chuỗi sẽ có bao nhiêu token trước khi tôi thử nhúng nó?

Tính/ước lượng token cho một embedding

Đã cập nhật: 3 days ago

Trước khi gửi một chuỗi để nhúng, bạn có thể ước tính số token mà nó sẽ dùng bằng cách áp dụng thư viện tách token tiktoken của OpenAI.

Điều này đặc biệt hữu ích vì các mô hình embedding (như text-embedding-3-small) có giới hạn token tối đa mà bạn cần tuân thủ.


Cách đếm token bằng Tiktoken

Bạn có thể dùng gói Python tiktoken để tính số token mà một chuỗi sẽ tạo ra.

Đây là một đoạn mã mẫu:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Trả về số token trong một chuỗi văn bản."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Ví dụ sử dụng
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Quan trọng:

  • Đối với mô hình embedding thế hệ thứ ba (ví dụ: text-embedding-3-small hoặc text-embedding-3-large), bạn nên dùng mã hóa "cl100k_base".

  • Các mô hình khác nhau có thể yêu cầu các kiểu mã hóa khác nhau — hãy luôn tham khảo tài liệu của mô hình nếu bạn không chắc.


Vì sao việc đếm token lại quan trọng

  • Nếu chuỗi của bạn vượt quá kích thước đầu vào tối đa của mô hình, yêu cầu API của bạn sẽ thất bại.

  • Đếm token chính xác từ trước giúp quy trình nhúng diễn ra trơn tru hơn và ngăn lỗi trong quá trình xử lý.


Liên kết hữu ích

Bài viết này có hữu ích không?