Embeddings-UKK

Julkaisimme 25. tammikuuta 2024 kaksi uutta upotusmallia: text-embedding-3-small ja text-embedding-3-large. Ne ovat uusimmat ja suorituskykyisimmät upotusmallimme: kustannukset ovat pienemmät, monikielinen suorituskyky parempi ja mukana on uusi parametri upotusten lyhentämiseen. Lue lisää.

Mitä eroa uusimmissa upotusmalleissa on?

Uusimmat v3-mallimme tarjoavat paremman suorituskyvyn yleisissä vertailutesteissä alhaisempaan hintaan. Voit lukea lisää suorituskykyparannuksista julkistusblogikirjoituksesta ja kehittäjädokumentaatiosta.

Mistä voin tietää, kuinka monta tokenia merkkijonossa on ennen kuin yritän upottaa sen?

Voit tarkistaa merkkijonon tokenien määrän OpenAI:n Tiktoken-paketilla. Lue lisää upotusten kehittäjäoppaastamme.

Miten voin hakea K lähintä upotusvektoria nopeasti?

Kun haluat hakea nopeasti monista vektoreista, suosittelemme käyttämään vektoritietokantaa.

Mitä etäisyysfunktiota minun kannattaa käyttää?

OpenAI API:n upotusten tulosvektorit L2-normalisoidaan oletuksena pituuteen 1, myös dimensions-parametrilla lyhentämisen jälkeen, mikä tarkoittaa, että:

OpenAI-upotukset normalisoidaan pituuteen 1, mikä tarkoittaa, että:

Kosinisimilaarisuus voidaan laskea hieman nopeammin pelkällä pistetulolla
Kosinisimilaarisuus ja euklidinen etäisyys tuottavat identtiset järjestykset

Mitä eroa uusimmissa upotusmalleissa on?

Mistä voin tietää, kuinka monta tokenia merkkijonossa on ennen kuin yritän upottaa sen?

Miten voin hakea K lähintä upotusvektoria nopeasti?

Mitä etäisyysfunktiota minun kannattaa käyttää?

Oliko tästä artikkelista apua?