OpenAI
Tämä sivu on konekäännetty. Katso alkuperäinen englanninkielinen artikkeli.

Miten voin selvittää, montako tokenia merkkijonossa on ennen kuin yritän upottaa sen?

Tokenien laskeminen/arviointi upotusta varten

Päivitetty: 15 hours ago

Ennen kuin lähetät merkkijonon upotettavaksi, voit arvioida, kuinka monta tokenia se käyttää, hyödyntämällä OpenAI:n tiktoken-tokenisointikirjastoa.

Tämä on erityisen hyödyllistä, koska upotusmalleilla (kuten text-embedding-3-small) on tokenien enimmäisrajat, joiden sisällä on pysyttävä.

---

Tokenien laskeminen Tiktokenilla

Voit käyttää Python-pakettia tiktoken laskeaksesi, kuinka monta tokenia merkkijono tuottaa.

Tässä on esimerkkikoodikatkelma:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Palauttaa tekstimerkkijonon tokenien määrän."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Esimerkkikäyttö
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Tärkeää:

  • Kolmannen sukupolven upotusmalleissa (esim. text-embedding-3-small tai text-embedding-3-large) tulisi käyttää koodausta "cl100k_base".

  • Eri mallit voivat vaatia eri koodauksia — tarkista aina mallin dokumentaatio, jos olet epävarma.

---

Miksi tokenien laskeminen on tärkeää

  • Jos merkkijonosi ylittää mallin enimmäissyötekoon, API-pyyntösi epäonnistuu.

  • Tokenien tarkka laskeminen etukäteen sujuvoittaa upotustyönkulkuja ja estää virheitä käsittelyn aikana.

---

Oliko tästä artikkelista apua?