OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

FAQ dotyczące embeddingów

FAQ dotyczące nowych i ulepszonych modeli embeddingów

Zaktualizowano: 3 days ago

25 stycznia 2024 roku wydaliśmy dwa nowe modele embeddingów: text-embedding-3-small i text-embedding-3-large. To nasze najnowsze i najbardziej wydajne modele embeddingów, oferujące niższe koszty, lepszą wydajność wielojęzyczną oraz nowy parametr do skracania embeddingów. Dowiedz się więcej.

Czym różnią się najnowsze modele embeddingów?

Nasze najnowsze modele v3 oferują lepszą wydajność w typowych benchmarkach przy niższej cenie. Więcej o poprawie wydajności można przeczytać we wpisie ogłoszeniowym na blogu i w dokumentacji dla deweloperów.

Jak sprawdzić, ile tokenów będzie miał ciąg znaków, zanim spróbuję utworzyć jego embedding?

Możesz użyć pakietu Tiktoken od OpenAI, aby sprawdzić, ile tokenów będzie miał ciąg znaków. Więcej informacji znajdziesz w naszym przewodniku dla deweloperów o embeddingach.

Jak szybko znaleźć K najbliższych wektorów embeddingów?

Do szybkiego przeszukiwania wielu wektorów zalecamy użycie bazy danych wektorowej.

Jakiej funkcji odległości powinienem użyć?

Zalecamy podobieństwo cosinusowe. Wybór funkcji odległości zwykle nie ma większego znaczenia.

Embeddingi OpenAI są znormalizowane do długości 1, co oznacza, że:

  • Podobieństwo cosinusowe można obliczyć nieco szybciej, używając tylko iloczynu skalarnego

  • Podobieństwo cosinusowe i odległość euklidesowa dadzą identyczne rankingi

Czy ten artykuł był pomocny?