Πριν στείλετε ένα string για embedding, μπορείτε να εκτιμήσετε πόσα token θα χρησιμοποιήσει εφαρμόζοντας τη βιβλιοθήκη tokenization tiktoken της OpenAI.
Αυτό είναι ιδιαίτερα χρήσιμο επειδή τα embedding μοντέλα (όπως το text-embedding-3-small) έχουν μέγιστα όρια token στα οποία θα πρέπει να παραμείνετε.
Πώς να μετράτε token με το Tiktoken
Μπορείτε να χρησιμοποιήσετε το πακέτο Python tiktoken για να υπολογίσετε τον αριθμό των token που θα δημιουργήσει ένα string.
Ακολουθεί ένα δείγμα αποσπάσματος κώδικα:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Επιστρέφει τον αριθμό των token σε ένα string κειμένου."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Παράδειγμα χρήσης
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Σημαντικό:
Για embedding μοντέλα τρίτης γενιάς (π.χ.
text-embedding-3-smallήtext-embedding-3-large), θα πρέπει να χρησιμοποιείτε την κωδικοποίηση"cl100k_base".Διαφορετικά μοντέλα μπορεί να απαιτούν διαφορετικές κωδικοποιήσεις — αν δεν είστε βέβαιοι, να ανατρέχετε πάντα στην τεκμηρίωση του μοντέλου.
Γιατί έχει σημασία η μέτρηση token
Αν το string σας υπερβαίνει το μέγιστο μέγεθος εισόδου του μοντέλου, το αίτημά σας API θα αποτύχει.
Η ακριβής μέτρηση των token εκ των προτέρων εξασφαλίζει πιο ομαλές ροές εργασίας embedding και αποτρέπει σφάλματα κατά την επεξεργασία.
