Ennen kuin lähetät merkkijonon upotettavaksi, voit arvioida, kuinka monta tokenia se käyttää, hyödyntämällä OpenAI:n tiktoken-tokenisointikirjastoa.
Tämä on erityisen hyödyllistä, koska upotusmalleilla (kuten text-embedding-3-small) on tokenien enimmäisrajat, joiden sisällä on pysyttävä.
---
Tokenien laskeminen Tiktokenilla
Voit käyttää Python-pakettia tiktoken laskeaksesi, kuinka monta tokenia merkkijono tuottaa.
Tässä on esimerkkikoodikatkelma:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Palauttaa tekstimerkkijonon tokenien määrän."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Esimerkkikäyttö
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Tärkeää:
Kolmannen sukupolven upotusmalleissa (esim.
text-embedding-3-smalltaitext-embedding-3-large) tulisi käyttää koodausta"cl100k_base".Eri mallit voivat vaatia eri koodauksia — tarkista aina mallin dokumentaatio, jos olet epävarma.
---
Miksi tokenien laskeminen on tärkeää
Jos merkkijonosi ylittää mallin enimmäissyötekoon, API-pyyntösi epäonnistuu.
Tokenien tarkka laskeminen etukäteen sujuvoittaa upotustyönkulkuja ja estää virheitä käsittelyn aikana.
---
