임베딩 FAQ

2024년 1월 25일, 두 가지 새로운 임베딩 모델인 text-embedding-3-small 및 text-embedding-3-large를 출시했습니다. 이들은 비용이 더 낮고, 다국어 성능이 더 높으며, 임베딩을 단축하기 위한 새 매개변수를 제공하는 당사의 최신 고성능 임베딩 모델입니다. 자세히 보기.

최신 임베딩 모델은 무엇이 다른가요?

최신 v3 모델은 더 낮은 가격으로 일반적인 벤치마크에서 더 강력한 성능을 제공합니다. 성능 개선에 대한 자세한 내용은 공지 블로그 게시물 및 개발자 문서에서 확인할 수 있습니다.

문자열을 임베딩하기 전에 토큰이 몇 개가 될지 어떻게 알 수 있나요?

OpenAI의 Tiktoken 패키지를 사용하여 문자열의 토큰 수를 확인할 수 있습니다. 자세한 내용은 임베딩 개발자 가이드에서 알아보세요.

K개의 최근접 임베딩 벡터를 빠르게 검색하려면 어떻게 해야 하나요?

많은 벡터를 빠르게 검색하려면 벡터 데이터베이스를 사용하는 것이 좋습니다.

어떤 거리 함수를 사용해야 하나요?

OpenAI API 임베딩 출력은 dimensions 매개변수로 단축한 후에도 기본적으로 길이 1로 L2 정규화됩니다. 즉, 다음을 의미합니다.

OpenAI 임베딩은 길이 1로 정규화됩니다. 즉, 다음을 의미합니다.

코사인 유사도는 내적만 사용하여 약간 더 빠르게 계산할 수 있습니다.
코사인 유사도와 유클리드 거리는 동일한 순위를 산출합니다.

최신 임베딩 모델은 무엇이 다른가요?

문자열을 임베딩하기 전에 토큰이 몇 개가 될지 어떻게 알 수 있나요?

K개의 최근접 임베딩 벡터를 빠르게 검색하려면 어떻게 해야 하나요?

어떤 거리 함수를 사용해야 하나요?

이 문서가 도움이 되었나요?