Πώς μπορώ να δω πόσα token θα έχει ένα string πριν προσπαθήσω να το ενσωματώσω;

Πριν στείλετε μια συμβολοσειρά για ενσωμάτωση, μπορείτε να εκτιμήσετε πόσα token θα χρησιμοποιήσει εφαρμόζοντας τη βιβλιοθήκη μετατροπής σε token tiktoken της OpenAI.

Αυτό είναι ιδιαίτερα χρήσιμο επειδή τα μοντέλα ενσωματώσεων (όπως το text-embedding-3-small) έχουν μέγιστα όρια token εντός των οποίων θα πρέπει να παραμένετε.

---

Πώς να μετράτε token με το Tiktoken

Μπορείτε να χρησιμοποιήσετε το πακέτο Python tiktoken για να υπολογίσετε τον αριθμό των token που θα δημιουργήσει μια συμβολοσειρά.

Ακολουθεί ένα ενδεικτικό απόσπασμα κώδικα:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Επιστρέφει τον αριθμό των token σε ένα string κειμένου."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Παράδειγμα χρήσης
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Σημαντικό:

Για μοντέλα ενσωματώσεων τρίτης γενιάς (π.χ. text-embedding-3-small ή text-embedding-3-large), θα πρέπει να χρησιμοποιείτε την κωδικοποίηση "cl100k_base".
Διαφορετικά μοντέλα μπορεί να απαιτούν διαφορετικές κωδικοποιήσεις — αν δεν είστε σίγουροι, να ανατρέχετε πάντα στην τεκμηρίωση του μοντέλου.

---

Γιατί έχει σημασία η καταμέτρηση token

Αν η συμβολοσειρά σας υπερβαίνει το μέγιστο μέγεθος εισόδου του μοντέλου, το αίτημα API θα αποτύχει.
Η ακριβής καταμέτρηση των token εκ των προτέρων εξασφαλίζει πιο ομαλές ροές εργασίας ενσωματώσεων και αποτρέπει σφάλματα κατά την επεξεργασία.

---

Πώς μπορώ να δω πόσα token θα έχει ένα string πριν προσπαθήσω να το ενσωματώσω;

Πώς να μετράτε token με το Tiktoken

Γιατί έχει σημασία η καταμέτρηση token

Χρήσιμοι σύνδεσμοι

Σας βοήθησε αυτό το άρθρο;