2024년 1월 25일에 두 개의 새로운 임베딩 모델인 text-embedding-3-small 및 text-embedding-3-large를 출시했습니다. 이 모델들은 더 낮은 비용, 더 높은 다국어 성능, 그리고 임베딩을 축소하기 위한 새 매개변수를 제공하는 최신 고성능 임베딩 모델입니다. 더 읽어보기.
최신 임베딩 모델은 무엇이 다른가요?
최신 v3 모델은 더 낮은 가격으로 일반적인 벤치마크에서 더 뛰어난 성능을 제공합니다. 성능 개선에 관한 자세한 내용은 발표 블로그 게시물과 개발자 문서에서 확인할 수 있습니다.
문자열을 임베딩하기 전에 토큰 수를 어떻게 알 수 있나요?
OpenAI의 Tiktoken 패키지를 사용해 문자열이 몇 개의 토큰을 갖는지 확인할 수 있습니다. 자세한 내용은 임베딩 개발자 가이드에서 알아보세요.
K개의 최근접 임베딩 벡터를 빠르게 검색하려면 어떻게 해야 하나요?
많은 벡터를 빠르게 검색하려면 벡터 데이터베이스 사용을 권장합니다.
어떤 거리 함수를 사용해야 하나요?
OpenAI API 임베딩 출력은 기본적으로 길이 1로 L2 정규화되며, dimensions 매개변수로 축소한 후에도 마찬가지입니다. 이는 다음을 의미합니다.
OpenAI 임베딩은 길이 1로 정규화되므로 다음이 성립합니다.
코사인 유사도는 내적만으로 약간 더 빠르게 계산할 수 있습니다
코사인 유사도와 유클리드 거리는 동일한 순위를 반환합니다
