Nyní nabízíme Priority processing pro zákazníky Enterprise API, kteří chtějí přístup k rychlejšímu a konzistentnějšímu výkonu u určitých modelů. Níže najdete odpovědi na časté otázky ohledně fungování, cen, dostupnosti modelů, limitů rychlosti, spolehlivosti, zásad a způsobilosti.
Více se dozvíte zde.
Přístup
Kdo má přístup k Priority processing?
Priority processing je v současnosti k dispozici zákazníkům Enterprise.
Je Priority processing k dispozici ve všech regionech?
Dostupnost Priority processing závisí na příslušných zákonech a předpisech v každé jurisdikci. Pokud máte otázky k dostupnosti ve vašem regionu, obraťte se prosím na svého Account Director.
Ceny
Jak začnu používat Priority processing?
Zákazníci mohou směrovat provoz do Priority processing pro jednotlivé požadavky pomocí stávajícího parametru service_tier s volbou service_tier="priority".
Jak to funguje ve vztahu ke Scale Tier?
Scale Tier zůstane oddělený od Priority processing. Požadavky odeslané do Priority processing budou účtovány samostatně a nebudou se započítávat do vámi zakoupených balíčků TPM ve Scale Tier.
Mohu automaticky posílat přebytečný provoz ze Scale Tier do Priority processing?
Ne. Provoz odeslaný do Scale Tier se nebude automaticky přelévat do Priority processing.
Jak se účtuje Priority processing?
Tokeny obsloužené prostřednictvím Priority processing budou účtovány po jednotlivých tokenech, za prémiovou cenu oproti sazbám Standard processing.
Je můj roční závazek vázán na konkrétní režim zpracování?
Ne. Všechny režimy zpracování se započítávají do vašeho ročního závazku výdajů Enterprise.
Dostanu stále slevu na tokeny Cached input?
Ano! Cached Inputs mají stejnou slevu 50–75 % jako ve Standard processing.
Jak zobrazím využití a výdaje za Priority processing?
Chcete-li zobrazit tokeny zpracované pomocí Priority processing, přejděte na panel Usage, vyberte Chat Completions nebo Responses a seskupte podle Service Tier. Chcete-li zobrazit náklady na Priority processing, přejděte na panel Usage a vyberte seskupení podle Line Item.
Modely
Je Priority processing k dispozici pro dlouhý kontext, fine-tuned modely, embeddings atd.?
V tuto chvíli ne. Do budoucna vyhodnotíme, zda Priority processing nabídneme i pro další produkty nad rámec našich nejnovějších modelů.
Jak fungují ostatní modality s Priority processing?
Priority processing podporuje stejné multimodální schopnosti jako Standard. Konkrétně lze obrázky použít jako vstupy do Priority processing a jsou zpracovávány se stejnou nízkou latencí.
Budou podporovány budoucí modely?
Plánujeme nabízet Priority processing pro nové modely GPT, ale nezaručujeme, že bude podporován každý model.
Limity rychlosti
Jaké jsou limity rychlosti?
Spotřeba Priority processing se z hlediska limitů rychlosti posuzuje stejně jako standardní provoz API.
Jaké jsou limity rychlosti náběhu?
Priority processing má limity rychlosti náběhu, aby byl zajištěn trvale vysoký výkon pro všechny zákazníky a současně flexibilní ceny na vyžádání. Pokud (a) se výkon Priority processing zhorší A (b) provoz zákazníka narůstá příliš rychle, mohou být v ojedinělých případech některé Priority požadavky místo toho převedeny na Standard processing.
Aktuální limit rychlosti náběhu pro Priority processing je definován v naší hlavní dokumentaci zde.
Osvědčené postupy pro dodržení limitu rychlosti náběhu
Při změně modelů zvyšujte provoz postupně. Pokud například vaše aplikace přechází z předchozího snapshotu na nový, použijte feature flag a převádějte provoz v průběhu několika hodin namísto najednou.
Vyhněte se spouštění rozsáhlého zpracování dat nebo asynchronních úloh na Priority processing. Tyto úlohy mohou provoz zvýšit velmi rychle a často nepotřebují vyšší výkon Priority processing.
Pokud na limity rychlosti náběhu narážíte pravidelně, zvažte raději nákup kvóty Scale Tier.
Sdílejí se limity rychlosti náběhu napříč mými projekty nebo organizacemi?
Ano, veškerý váš provoz se započítává do stejného limitu rychlosti náběhu.
Zásady
Co se stane, pokud Priority processing nebude plnit cílovou latenci?
Máte-li jakékoli dotazy nebo obavy, obraťte se prosím na svého AD. Smlouvy SLA pro Priority processing budou posuzovány stejně jako SLA pro Scale Tier; pokud tyto SLA nesplníme u zákazníků se smlouvami Enterprise v daném časovém období, nabídneme servisní kredity.
Je Priority processing kompatibilní s datovou rezidencí?
Ano.
Je Priority processing kompatibilní se ZDR a BAA?
Ano.
