2024 সালের 25 জানুয়ারি আমরা দুটি নতুন এম্বেডিং মডেল প্রকাশ করেছি: text-embedding-3-small এবং text-embedding-3-large. এগুলো আমাদের সর্বশেষ এবং সবচেয়ে কার্যকর এম্বেডিং মডেল, যার খরচ কম, বহুভাষিক পারফরম্যান্স বেশি, এবং এম্বেডিং ছোট করার জন্য একটি নতুন প্যারামিটার রয়েছে. আরও পড়ুন.
সর্বশেষ এম্বেডিং মডেলগুলোতে কী আলাদা?
আমাদের সর্বশেষ v3 মডেলগুলো কম দামে প্রচলিত বেঞ্চমার্কে আরও শক্তিশালী পারফরম্যান্স দেয়. পারফরম্যান্সের উন্নতি সম্পর্কে আপনি ঘোষণামূলক ব্লগ পোস্টে এবং ডেভেলপার ডকুমেন্টেশনে আরও পড়তে পারেন.
কোনো স্ট্রিং এম্বেড করার চেষ্টা করার আগে সেটিতে কত টোকেন থাকবে তা কীভাবে জানতে পারি?
কোনো স্ট্রিংয়ে কত টোকেন থাকবে তা পরীক্ষা করতে আপনি OpenAI-এর Tiktoken প্যাকেজ ব্যবহার করতে পারেন. আমাদের এম্বেডিংস ডেভেলপার গাইডে আরও জানুন.
আমি কীভাবে নিকটতম K এম্বেডিং ভেক্টর দ্রুত উদ্ধার করতে পারি?
অনেক ভেক্টরের মধ্যে দ্রুত অনুসন্ধানের জন্য আমরা একটি ভেক্টর ডাটাবেস ব্যবহার করার পরামর্শ দিই.
আমার কোন দূরত্ব ফাংশন ব্যবহার করা উচিত?
OpenAI API এম্বেডিং আউটপুটগুলো ডিফল্টভাবে দৈর্ঘ্য 1-এ L2-নর্মালাইজড থাকে, এমনকি dimensions প্যারামিটার দিয়ে ছোট করার পরেও, যার অর্থ হলো:
OpenAI এম্বেডিংগুলো দৈর্ঘ্য 1-এ নর্মালাইজড থাকে, যার অর্থ হলো:
শুধু ডট প্রোডাক্ট ব্যবহার করে কোসাইন সাদৃশ্য সামান্য দ্রুত গণনা করা যায়.
কোসাইন সাদৃশ্য এবং ইউক্লিডীয় দূরত্ব একই র্যাঙ্কিং দেবে.
