Sada nudimo prioritetnu obradu za Enterprise API korisnike koji žele pristup bržim i dosljednijim performansama na određenim modelima. U nastavku su odgovori na česta pitanja o tome kako funkcionira, cijenama, dostupnosti modela, ograničenjima broja zahtjeva, pouzdanosti, pravilima i uvjetima prihvatljivosti.
Saznajte više ovdje.
Pristup
Tko može pristupiti prioritetnoj obradi?
Prioritetna obrada trenutačno je dostupna korisnicima Enterprisea.
Je li prioritetna obrada dostupna u svim regijama?
Dostupnost prioritetne obrade ovisi o primjenjivim zakonima i propisima u svakoj jurisdikciji. Ako imate pitanja o dostupnosti u svojoj regiji, obratite se svom direktoru za klijente.
Cijene
Kako mogu početi upotrebljavati prioritetnu obradu?
Korisnici mogu usmjeravati promet na prioritetnu obradu za svaki zahtjev zasebno pomoću postojećeg parametra service_tier, uz opciju service_tier="priority".
Kako ovo funkcionira s Razinom skaliranja?
Razina skaliranja ostat će odvojena od prioritetne obrade. Zahtjevi poslani na prioritetnu obradu naplaćivat će se zasebno i neće se ubrajati u vaše kupljene TPM pakete Razine skaliranja.
Mogu li automatski slati višak prometa iz Razine skaliranja na prioritetnu obradu?
Ne. Promet poslan na Razinu skaliranja neće se automatski prelijevati na prioritetnu obradu.
Kako se naplaćuje prioritetna obrada?
Tokeni posluženi prioritetnom obradom naplaćivat će se po tokenu, po cijeni s premijom u odnosu na cijene standardne obrade.
Je li moja godišnja obveza vezana uz određeni način obrade?
Ne. Svi načini obrade ubrajaju se u vašu godišnju Enterprise obvezu potrošnje.
Dobivam li i dalje popust na predmemorirane ulazne tokene?
Da! Predmemorirani ulazi ostvaruju isti popust od 50 do 75 % kao i u standardnoj obradi.
Kako mogu pregledati upotrebu i potrošnju za prioritetnu obradu?
Za prikaz tokena obrađenih prioritetnom obradom otvorite nadzornu ploču Usage, odaberite Chat Completions ili Responses te grupirajte po Razini usluge. Za prikaz troška prioritetne obrade otvorite nadzornu ploču Usage i odaberite grupiranje po stavci.
Modeli
Je li prioritetna obrada dostupna za dugi kontekst, fino podešene modele, ugradnje itd.?
Trenutačno nije. U budućnosti ćemo procijeniti hoćemo li ponuditi prioritetnu obradu na dodatnim proizvodima izvan naših najnovijih modela.
Kako drugi modaliteti funkcioniraju s prioritetnom obradom?
Prioritetna obrada podržava iste multimodalne mogućnosti dostupne u standardnoj obradi. Konkretno, slike se mogu upotrebljavati kao ulazi za prioritetnu obradu i obrađuju se s jednako niskom latencijom.
Hoće li budući modeli biti podržani?
Planiramo ponuditi prioritetnu obradu na novim GPT modelima, ali ne jamčimo da će svaki model biti podržan.
Ograničenja broja zahtjeva
Koja su ograničenja broja zahtjeva?
Potrošnja prioritetne obrade za ograničenja broja zahtjeva tretira se jednako kao standardni API promet.
Koja su ograničenja brzine povećanja prometa?
Prioritetna obrada ima ograničenja brzine povećanja prometa kako bi se osigurale dosljedno visoke performanse za sve korisnike, uz fleksibilne cijene na zahtjev. Ako su (a) performanse prioritetne obrade smanjene I (b) promet korisnika raste prebrzo, u rijetkim slučajevima neki prioritetni zahtjevi mogu se umjesto toga prebaciti na standardnu obradu.
Trenutačno ograničenje brzine povećanja prometa za prioritetnu obradu definirano je u našoj glavnoj dokumentaciji ovdje.
Najbolje prakse za ostanak unutar ograničenja brzine povećanja prometa
Postupno povećavajte promet pri promjeni modela. Na primjer, ako vaša aplikacija prelazi s prethodne snimke na novu, upotrijebite oznaku značajke kako biste promet preusmjerili tijekom nekoliko sati, umjesto odjednom.
Izbjegavajte pokretanje velikih poslova obrade podataka ili asinkronih poslova u prioritetnoj obradi. Ti poslovi mogu vrlo brzo povećati promet i često ne trebaju poboljšane performanse prioritetne obrade.
Ako se redovito susrećete s ograničenjima brzine povećanja prometa, razmislite o kupnji kvote Razine skaliranja.
Dijele li se ograničenja brzine povećanja prometa među mojim projektima ili organizacijama?
Da, sav vaš promet doprinosi istom ograničenju brzine povećanja prometa.
Pravila
Što se događa ako prioritetna obrada ne ispunjava cilj latencije?
Ako imate pitanja ili nedoumice, obratite se svom AD-u. SLA-ovi za prioritetnu obradu tretirat će se jednako kao SLA-ovi Razine skaliranja; krediti za uslugu bit će ponuđeni ako ne ispunimo te SLA-ove za korisnike s Enterprise ugovorima tijekom određenog vremenskog razdoblja.
Je li prioritetna obrada kompatibilna s rezidentnošću podataka?
Da.
Je li prioritetna obrada kompatibilna sa ZDR-om i BAA-om?
Da.
