Вече предлагаме приоритетна обработка за клиенти на Enterprise API, които искат достъп до по-бърза и по-постоянна производителност при определени модели. По-долу ще намерите отговори на често задавани въпроси за начина на работа, ценообразуването, наличността на модели, ограниченията на честотата, надеждността, правилата и допустимостта.
Научете повече тук.
Достъп
Кой може да използва приоритетна обработка?
Приоритетната обработка в момента е достъпна за клиенти на Enterprise.
Налична ли е приоритетната обработка във всички региони?
Наличността на приоритетната обработка зависи от приложимите закони и разпоредби във всяка юрисдикция. Моля, свържете се с вашия Account Director, ако имате въпроси относно наличността във вашия регион.
Ценообразуване
Как да започна да използвам приоритетна обработка?
Клиентите могат да насочват трафик към приоритетна обработка за всяка заявка поотделно чрез съществуващия параметър service_tier с опцията service_tier="priority".
Как това взаимодейства със Scale Tier?
Scale Tier ще остане отделен от приоритетната обработка. Заявките, изпратени към приоритетна обработка, ще се таксуват отделно и няма да се отчитат към закупените от вас TPM пакети на Scale Tier.
Мога ли автоматично да изпращам излишния си трафик от Scale Tier към приоритетна обработка?
Не. Трафикът, изпратен към Scale Tier, няма автоматично да се пренасочва към приоритетна обработка.
Как се таксува приоритетната обработка?
Токените, обслужени чрез приоритетна обработка, ще се таксуват на база токен, на по-висока цена спрямо тарифите за стандартна обработка.
Обвързан ли е годишният ми ангажимент с конкретен режим на обработка?
Не. Всички режими на обработка се отчитат към годишния ви ангажимент за разходи по Enterprise.
Продължавам ли да получавам отстъпка за кеширани входни токени?
Да! Кешираните входове получават същата отстъпка от 50-75%, както при стандартна обработка.
Как да видя използването и разходите си за приоритетна обработка?
За да видите токените, обработени чрез приоритетна обработка, отидете в таблото Usage, изберете Chat Completions или Responses и Group by Service Tier. За да видите разходите за приоритетна обработка, отидете в таблото Usage и изберете Group by Line Item.
Модели
Налична ли е приоритетната обработка за дълъг контекст, фино настроени модели, embeddings и др.?
Не засега. В бъдеще ще преценим дали да предлагаме приоритетна обработка за допълнителни продукти извън най-новите ни модели.
Как работят другите модалности с приоритетна обработка?
Приоритетната обработка поддържа същите мултимодални възможности, налични при Standard. По-конкретно, изображенията могат да се използват като входни данни за приоритетна обработка и се обработват със същата ниска латентност.
Ще се поддържат ли бъдещи модели?
Планираме да предлагаме приоритетна обработка за нови GPT модели, но не гарантираме, че всеки модел ще бъде поддържан.
Ограничения на честотата
Какви са ограниченията на честотата?
Потреблението на приоритетна обработка се третира по същия начин като стандартния API трафик за целите на ограниченията на честотата.
Какви са ограниченията за темпа на нарастване?
Приоритетната обработка има ограничения за темпа на нарастване, за да осигури постоянно висока производителност за всички клиенти, като същевременно предлага гъвкаво ценообразуване при поискване. Ако (a) производителността на приоритетната обработка се влоши И (b) трафикът на даден клиент нараства твърде бързо, тогава в редки случаи някои приоритетни заявки може вместо това да бъдат понижени до стандартна обработка.
Текущото ограничение за темпа на нарастване при приоритетна обработка е определено в основната ни документация тук.
Най-добри практики за оставане в рамките на ограничението за темпа на нарастване
Постепенно увеличавайте трафика при смяна на модели. Например, ако приложението ви преминава от предишен snapshot към нов, използвайте feature flag, за да прехвърлите трафика в рамките на няколко часа, а не наведнъж.
Избягвайте да изпълнявате големи задачи за обработка на данни или асинхронни задачи на приоритетна обработка. Тези задачи могат да увеличат трафика много бързо и често не се нуждаят от подобрената производителност на приоритетната обработка.
Ако редовно достигате ограниченията за темпа на нарастване, помислете вместо това за закупуване на квота за Scale Tier.
Споделят ли се ограниченията за темпа на нарастване между проектите или организациите ми?
Да, целият ви трафик допринася към едно и също ограничение за темпа на нарастване.
Правила
Какво се случва, ако приоритетната обработка не постига целевата латентност?
Моля, свържете се с вашия AD при всякакви въпроси или притеснения. SLA за приоритетната обработка ще се третират по същия начин като SLA за Scale Tier; ще бъдат предоставени сервизни кредити, ако не успеем да спазим тези SLA за клиенти с Enterprise споразумения в рамките на даден времеви прозорец.
Съвместима ли е приоритетната обработка с местонахождение на данните?
Да.
Съвместима ли е приоритетната обработка със ZDR и BAA?
Да.
