OpenAI
هذه الصفحة مترجمة باستخدام الترجمة الآلية. تفضل بالاطّلاع على المقال الأصلي بالإنجليزية.

كيف أعرف عدد الرموز في سلسلة نصية قبل محاولة تضمينها؟

حساب/تقدير الرموز للتضمين

تم التحديث: 10 days ago

قبل إرسال سلسلة نصية للتضمين، يمكنك تقدير عدد الرموز التي ستستخدمها عبر استخدام مكتبة OpenAI ‏tiktoken لتقسيم النص إلى رموز.

هذا مفيد خصوصًا لأن نماذج التضمين (مثل text-embedding-3-small) لها حدود قصوى لعدد الرموز يجب الالتزام بها.

---

كيفية عدّ الرموز باستخدام Tiktoken

يمكنك استخدام حزمة Python tiktoken لحساب عدد الرموز التي ستولّدها سلسلة نصية.

إليك مقتطفًا نموذجيًا من التعليمات البرمجية:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

مهم:

  • بالنسبة إلى نماذج التضمين من الجيل الثالث (مثل text-embedding-3-small أو text-embedding-3-large)، ينبغي استخدام ترميز "cl100k_base".

  • قد تتطلب النماذج المختلفة ترميزات مختلفة — ارجع دائمًا إلى وثائق النموذج إذا لم تكن متأكدًا.

---

لماذا يهمّ عدّ الرموز

  • إذا تجاوزت السلسلة النصية الحد الأقصى لحجم إدخال النموذج، فسيفشل طلب API.

  • يضمن عدّ الرموز بدقة مسبقًا سير عمل تضمين أكثر سلاسة ويمنع الأخطاء أثناء المعالجة.

---

هل كانت هذه المقالة مفيدة؟