OpenAI
Tämä sivu on konekäännetty. Katso alkuperäinen englanninkielinen artikkeli.

Embeddings-UKK

UKK uusista ja parannetuista embedding-malleista

Päivitetty: 9 days ago

25. tammikuuta 2024 julkaisimme kaksi uutta embeddings-mallia: text-embedding-3-small ja text-embedding-3-large. Nämä ovat uusimmat ja suorituskykyisimmät embedding-mallimme, joissa on alhaisemmat kustannukset, parempi monikielinen suorituskyky ja uusi parametri embeddings-vektorien lyhentämiseen. Lue lisää.

Mitä eroa uusimmissa embedding-malleissa on?

Uusimmat v3-mallimme tarjoavat paremman suorituskyvyn yleisissä vertailuarvioinneissa edullisempaan hintaan. Voit lukea lisää suorituskyvyn parannuksista julkistusblogikirjoituksesta ja kehittäjädokumentaatiosta.

Miten voin tarkistaa, montako tokenia merkkijonossa on ennen kuin yritän luoda sille embeddingin?

Voit käyttää OpenAI:n Tiktoken-pakettia tarkistaaksesi, montako tokenia merkkijonossa on. Lue lisää embedding-kehittäjäoppaastamme.

Miten voin hakea K lähintä embedding-vektoria nopeasti?

Jos haluat hakea nopeasti monista vektoreista, suosittelemme käyttämään vektoritietokantaa.

Mitä etäisyysfunktiota minun pitäisi käyttää?

OpenAI API:n embedding-ulostulot L2-normalisoidaan oletusarvoisesti pituuteen 1, myös dimensions-parametrilla lyhentämisen jälkeen, mikä tarkoittaa, että:

OpenAI-embeddingit normalisoidaan pituuteen 1, mikä tarkoittaa, että:

  • Kosinisimilariteetti voidaan laskea hieman nopeammin pelkällä pistetulolla

  • Kosinisimilariteetti ja euklidinen etäisyys tuottavat identtiset järjestykset

Oliko tästä artikkelista apua?