OpenAI
Αυτή η σελίδα μεταφράστηκε αυτόματα. Δείτε το πρωτότυπο άρθρο στα αγγλικά.

Πώς μπορώ να δω πόσα token θα έχει ένα string πριν προσπαθήσω να το ενσωματώσω;

Υπολογισμός/εκτίμηση token για ένα embedding

Τελευταία ενημέρωση: 2 days ago

Πριν στείλετε ένα string για embedding, μπορείτε να εκτιμήσετε πόσα token θα χρησιμοποιήσει εφαρμόζοντας τη βιβλιοθήκη tokenization tiktoken της OpenAI.

Αυτό είναι ιδιαίτερα χρήσιμο επειδή τα embedding μοντέλα (όπως το text-embedding-3-small) έχουν μέγιστα όρια token στα οποία θα πρέπει να παραμείνετε.


Πώς να μετράτε token με το Tiktoken

Μπορείτε να χρησιμοποιήσετε το πακέτο Python tiktoken για να υπολογίσετε τον αριθμό των token που θα δημιουργήσει ένα string.

Ακολουθεί ένα δείγμα αποσπάσματος κώδικα:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Επιστρέφει τον αριθμό των token σε ένα string κειμένου."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Παράδειγμα χρήσης
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Σημαντικό:

  • Για embedding μοντέλα τρίτης γενιάς (π.χ. text-embedding-3-small ή text-embedding-3-large), θα πρέπει να χρησιμοποιείτε την κωδικοποίηση "cl100k_base".

  • Διαφορετικά μοντέλα μπορεί να απαιτούν διαφορετικές κωδικοποιήσεις — αν δεν είστε βέβαιοι, να ανατρέχετε πάντα στην τεκμηρίωση του μοντέλου.


Γιατί έχει σημασία η μέτρηση token

  • Αν το string σας υπερβαίνει το μέγιστο μέγεθος εισόδου του μοντέλου, το αίτημά σας API θα αποτύχει.

  • Η ακριβής μέτρηση των token εκ των προτέρων εξασφαλίζει πιο ομαλές ροές εργασίας embedding και αποτρέπει σφάλματα κατά την επεξεργασία.


Χρήσιμοι σύνδεσμοι

Σας βοήθησε αυτό το άρθρο;