Oferim acum procesare prioritară pentru clienții Enterprise API care doresc acces la performanță mai rapidă și mai consecventă pe anumite modele. Mai jos sunt răspunsuri la întrebări frecvente despre cum funcționează, prețuri, disponibilitatea modelelor, limitele de rată, fiabilitate, politici și eligibilitate.
Aflați mai multe aici.
Acces
Cine poate accesa procesarea prioritară?
Procesarea prioritară este disponibilă în prezent pentru clienții Enterprise.
Este disponibilă procesarea prioritară în toate regiunile?
Disponibilitatea procesării prioritare depinde de legile și reglementările aplicabile în fiecare jurisdicție. Vă rugăm să contactați Account Director-ul dvs. dacă aveți întrebări despre disponibilitatea în regiunea dvs.
Prețuri
Cum încep să folosesc procesarea prioritară?
Clienții pot direcționa traficul către procesarea prioritară pentru fiecare solicitare folosind parametrul existent service_tier, cu opțiunea service_tier="priority".
Cum interacționează aceasta cu Scale Tier?
Scale Tier va rămâne separat de procesarea prioritară. Solicitările trimise către procesarea prioritară vor fi facturate separat și nu vor fi luate în calcul pentru pachetele TPM Scale Tier achiziționate.
Pot trimite automat traficul excedentar din Scale Tier către procesarea prioritară?
Nu. Traficul trimis către Scale Tier nu va fi direcționat automat către procesarea prioritară.
Cum este facturată procesarea prioritară?
Tokenii procesați prin procesarea prioritară vor fi facturați per token, la un preț premium față de tarifele pentru procesarea standard.
Angajamentul meu anual este legat de un anumit mod de procesare?
Nu. Toate modurile de procesare se iau în calcul pentru angajamentul anual de cheltuieli Enterprise.
Primesc în continuare o reducere pentru tokenii de intrare din cache?
Da! Intrările din cache primesc aceeași reducere de 50-75% ca în procesarea standard.
Cum văd utilizarea și cheltuielile pentru procesarea prioritară?
Pentru a vedea tokenii procesați prin procesarea prioritară, mergeți la tabloul de bord Usage, selectați Chat Completions sau Responses și grupați după Service Tier. Pentru a vedea costul procesării prioritare, mergeți la tabloul de bord Usage și selectați Group by Line Item.
Modele
Este disponibilă procesarea prioritară pentru context lung, modele ajustate fin, embeddings etc.?
Nu în acest moment. Vom evalua în viitor dacă să oferim procesare prioritară pentru produse suplimentare, dincolo de cele mai noi modele ale noastre.
Cum funcționează alte modalități cu procesarea prioritară?
Procesarea prioritară acceptă aceleași capabilități multimodale disponibile în Standard. În special, imaginile pot fi folosite ca intrări pentru procesarea prioritară și sunt procesate cu aceeași latență redusă.
Vor fi acceptate modelele viitoare?
Plănuim să oferim procesare prioritară pentru noile modele GPT, dar nu garantăm că fiecare model va fi acceptat.
Limite de rată
Care sunt limitele de rată?
Consumul pentru procesarea prioritară este tratat la fel ca traficul API standard în ceea ce privește limitele de rată.
Care sunt limitele ratei de creștere?
Procesarea prioritară are limite ale ratei de creștere pentru a asigura performanță constant ridicată pentru toți clienții, oferind în același timp prețuri flexibile, la cerere. Dacă (a) performanța procesării prioritare este degradată ȘI (b) traficul unui client crește prea rapid, atunci unele solicitări Priority pot fi retrogradate la procesare Standard în schimb, în cazuri rare.
Limita actuală a ratei de creștere pentru procesarea prioritară este definită în documentația noastră principală aici.
Bune practici pentru a rămâne în limita ratei de creștere
Creșteți treptat traficul atunci când schimbați modelele. De exemplu, dacă aplicația dvs. trece de la un snapshot anterior la unul nou, folosiți un feature flag pentru a face tranziția traficului pe parcursul a câtorva ore, nu dintr-odată.
Evitați să rulați procese mari de prelucrare a datelor sau joburi asincrone în procesarea prioritară. Aceste joburi pot crește traficul foarte repede și adesea nu au nevoie de performanța îmbunătățită a procesării prioritare.
Dacă întâmpinați în mod obișnuit limite ale ratei de creștere, luați în considerare achiziționarea în schimb a unei cote Scale tier.
Limitele ratei de creștere sunt partajate între proiectele sau organizațiile mele?
Da, tot traficul dvs. contribuie la aceeași limită a ratei de creștere.
Politici
Ce se întâmplă dacă procesarea prioritară nu atinge ținta de latență?
Vă rugăm să luați legătura cu AD-ul dvs. pentru orice întrebări sau preocupări. SLA-urile pentru procesarea prioritară vor fi tratate la fel ca SLA-urile Scale Tier; vor fi oferite credite de serviciu dacă nu reușim să respectăm acele SLA-uri pentru clienții cu acorduri Enterprise într-un anumit interval de timp.
Este compatibilă procesarea prioritară cu rezidența datelor?
Da.
Este compatibilă procesarea prioritară cu ZDR și BAA?
Da.
