임베딩을 위해 문자열을 보내기 전에 OpenAI의 tiktoken 토크나이저 라이브러리를 적용하여 사용할 토큰 수를 추정할 수 있습니다.
이는 임베딩 모델(text-embedding-3-small 등)에 준수해야 하는 최대 토큰 제한이 있기 때문에 특히 유용합니다.
---
tiktoken으로 토큰 수 계산하는 방법
tiktoken Python 패키지를 사용하여 문자열이 생성할 토큰 수를 계산할 수 있습니다.
다음은 샘플 코드 스니펫입니다:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)중요:
3세대 임베딩 모델(예:
text-embedding-3-small또는text-embedding-3-large)의 경우"cl100k_base"인코딩을 사용해야 합니다.모델마다 다른 인코딩이 필요할 수 있습니다. 확실하지 않으면 항상 모델 문서를 참조하세요.
---
토큰 수 계산이 중요한 이유
문자열이 모델의 최대 입력 크기를 초과하면 API 요청이 실패합니다.
사전에 토큰 수를 정확히 계산하면 임베딩 워크플로가 더 원활해지고 처리 중 오류를 방지할 수 있습니다.
---
