25 जनवरी 2024 को हमने दो नए एम्बेडिंग मॉडल जारी किए: text-embedding-3-small और text-embedding-3-large. ये हमारे सबसे नए और सबसे बेहतर प्रदर्शन वाले एम्बेडिंग मॉडल हैं, जिनमें कम लागत, बेहतर बहुभाषी प्रदर्शन और एम्बेडिंग को छोटा करने के लिए एक नया पैरामीटर है. और पढ़ें.
नवीनतम एम्बेडिंग मॉडल में क्या अलग है?
हमारे नवीनतम v3 मॉडल कम कीमत पर सामान्य बेंचमार्क में बेहतर प्रदर्शन देते हैं. आप प्रदर्शन सुधारों के बारे में घोषणा ब्लॉग पोस्ट और डेवलपर दस्तावेज़ में अधिक पढ़ सकते हैं.
मैं एम्बेड करने से पहले कैसे पता करूं कि किसी स्ट्रिंग में कितने टोकन होंगे?
आप यह जांचने के लिए OpenAI का Tiktoken पैकेज इस्तेमाल कर सकते हैं कि किसी स्ट्रिंग में कितने टोकन होंगे. हमारे एम्बेडिंग्स डेवलपर गाइड में और जानें.
मैं K निकटतम एम्बेडिंग वेक्टर को जल्दी कैसे प्राप्त कर सकता हूं?
कई वेक्टरों में तेज़ी से खोज के लिए, हम वेक्टर डेटाबेस इस्तेमाल करने की सलाह देते हैं.
मुझे कौन-सा दूरी फ़ंक्शन इस्तेमाल करना चाहिए?
OpenAI API एम्बेडिंग आउटपुट डिफ़ॉल्ट रूप से लंबाई 1 पर L2-normalized होते हैं, जिसमें dimensions पैरामीटर से छोटा करने के बाद भी शामिल है, जिसका अर्थ है कि:
OpenAI एम्बेडिंग्स लंबाई 1 पर normalized होते हैं, जिसका अर्थ है कि:
सिर्फ डॉट प्रोडक्ट का उपयोग करके cosine similarity को थोड़ा तेज़ी से गणना किया जा सकता है
cosine similarity और Euclidean distance से समान रैंकिंग प्राप्त होगी
