문자열을 임베딩하기 전에 토큰 수를 어떻게 알 수 있나요?

임베딩을 위해 문자열을 보내기 전에 OpenAI의 tiktoken 토크나이저 라이브러리를 적용하여 사용할 토큰 수를 추정할 수 있습니다.

이는 임베딩 모델(text-embedding-3-small 등)에 준수해야 하는 최대 토큰 제한이 있기 때문에 특히 유용합니다.

---

tiktoken으로 토큰 수 계산하는 방법

tiktoken Python 패키지를 사용하여 문자열이 생성할 토큰 수를 계산할 수 있습니다.

다음은 샘플 코드 스니펫입니다:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

중요:

3세대 임베딩 모델(예: text-embedding-3-small 또는 text-embedding-3-large)의 경우 "cl100k_base" 인코딩을 사용해야 합니다.
모델마다 다른 인코딩이 필요할 수 있습니다. 확실하지 않으면 항상 모델 문서를 참조하세요.

---

토큰 수 계산이 중요한 이유

문자열이 모델의 최대 입력 크기를 초과하면 API 요청이 실패합니다.
사전에 토큰 수를 정확히 계산하면 임베딩 워크플로가 더 원활해지고 처리 중 오류를 방지할 수 있습니다.

---

문자열을 임베딩하기 전에 토큰 수를 어떻게 알 수 있나요?

tiktoken으로 토큰 수 계산하는 방법

토큰 수 계산이 중요한 이유

유용한 링크

이 문서가 도움이 되었나요?