Miten voin selvittää, montako tokenia merkkijonossa on ennen kuin yritän upottaa sen?

Ennen kuin lähetät merkkijonon upotettavaksi, voit arvioida, kuinka monta tokenia se käyttää, hyödyntämällä OpenAI:n tiktoken-tokenisointikirjastoa.

Tämä on erityisen hyödyllistä, koska upotusmalleilla (kuten text-embedding-3-small) on tokenien enimmäisrajat, joiden sisällä on pysyttävä.

---

Tokenien laskeminen Tiktokenilla

Voit käyttää Python-pakettia tiktoken laskeaksesi, kuinka monta tokenia merkkijono tuottaa.

Tässä on esimerkkikoodikatkelma:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Palauttaa tekstimerkkijonon tokenien määrän."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Esimerkkikäyttö
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Tärkeää:

Kolmannen sukupolven upotusmalleissa (esim. text-embedding-3-small tai text-embedding-3-large) tulisi käyttää koodausta "cl100k_base".
Eri mallit voivat vaatia eri koodauksia — tarkista aina mallin dokumentaatio, jos olet epävarma.

---

Miksi tokenien laskeminen on tärkeää

Jos merkkijonosi ylittää mallin enimmäissyötekoon, API-pyyntösi epäonnistuu.
Tokenien tarkka laskeminen etukäteen sujuvoittaa upotustyönkulkuja ja estää virheitä käsittelyn aikana.

---

Miten voin selvittää, montako tokenia merkkijonossa on ennen kuin yritän upottaa sen?

Tokenien laskeminen Tiktokenilla

Miksi tokenien laskeminen on tärkeää

Hyödyllisiä linkkejä

Oliko tästä artikkelista apua?