Nově nabízíme prioritní zpracování pro zákazníky Enterprise API, kteří chtějí u určitých modelů získat přístup k rychlejšímu a konzistentnějšímu výkonu. Níže najdete odpovědi na časté dotazy k fungování, cenám, dostupnosti modelů, limitům frekvence požadavků, spolehlivosti, zásadám a způsobilosti.
Další informace najdete zde.
Přístup
Kdo má přístup k prioritnímu zpracování?
Prioritní zpracování je momentálně dostupné zákazníkům Enterprise.
Je prioritní zpracování dostupné ve všech regionech?
Dostupnost prioritního zpracování závisí na platných zákonech a předpisech v jednotlivých jurisdikcích. Pokud máte dotazy k dostupnosti ve svém regionu, kontaktujte prosím svého Account Directora.
Ceny
Jak začnu používat prioritní zpracování?
Zákazníci mohou směrovat provoz do prioritního zpracování pro každý požadavek zvlášť pomocí stávajícího parametru service_tier s možností service_tier="priority".
Jak to souvisí s úrovní škálování?
Úroveň škálování zůstane od prioritního zpracování oddělená. Požadavky odeslané do prioritního zpracování budou účtovány samostatně a nebudou se započítávat do vašich zakoupených balíčků TPM úrovně škálování.
Mohu přebytečný provoz z úrovně škálování automaticky odesílat do prioritního zpracování?
Ne. Provoz odeslaný do úrovně škálování se automaticky nepřesměruje do prioritního zpracování.
Jak se prioritní zpracování účtuje?
Tokeny obsloužené prioritním zpracováním budou účtovány za token s prémiovou cenou oproti sazbám standardního zpracování.
Je můj roční závazek vázán na konkrétní režim zpracování?
Ne. Všechny režimy zpracování se započítávají do vašeho ročního výdajového závazku Enterprise.
Dostanu i nadále slevu na tokeny vstupů uložených v mezipaměti?
Ano! Vstupy uložené v mezipaměti mají stejnou slevu 50–75 % jako při standardním zpracování.
Jak zobrazím využití a výdaje za prioritní zpracování?
Chcete-li zobrazit tokeny zpracované prioritním zpracováním, přejděte na panel Využití, vyberte Chat Completions nebo Responses a seskupte podle úrovně služeb. Chcete-li zobrazit náklady na prioritní zpracování, přejděte na panel Využití a vyberte seskupení podle položky řádku.
Modely
Je prioritní zpracování dostupné pro dlouhý kontext, jemně doladěné modely, embeddings apod.?
V tuto chvíli ne. V budoucnu posoudíme, zda nabídnout prioritní zpracování i pro další produkty nad rámec našich nejnovějších modelů.
Jak s prioritním zpracováním fungují jiné modality?
Prioritní zpracování podporuje stejné multimodální funkce, které jsou dostupné ve standardním zpracování. Zejména lze jako vstupy do prioritního zpracování používat obrázky a ty jsou zpracovávány se stejně rychlou latencí.
Budou podporovány budoucí modely?
Plánujeme nabízet prioritní zpracování pro nové modely GPT, ale nezaručujeme, že bude podporován každý model.
Limity frekvence požadavků
Jaké jsou limity frekvence požadavků?
Spotřeba prioritního zpracování se pro limity frekvence požadavků posuzuje stejně jako standardní provoz API.
Jaké jsou limity rychlosti nárůstu provozu?
Prioritní zpracování má limity rychlosti nárůstu provozu, aby byl zajištěn trvale vysoký výkon pro všechny zákazníky a zároveň flexibilní ceny na vyžádání. Pokud (a) se výkon prioritního zpracování sníží A (b) provoz zákazníka narůstá příliš rychle, mohou být ve vzácných případech některé prioritní požadavky místo toho přeřazeny na standardní zpracování.
Aktuální limit rychlosti nárůstu provozu pro prioritní zpracování je definován v naší hlavní dokumentaci zde.
Doporučené postupy, jak zůstat v rámci limitu rychlosti nárůstu provozu
Při změně modelů zvyšujte provoz postupně. Pokud například vaše aplikace přechází z předchozího snapshotu na nový, použijte feature flag a převádějte provoz během několika hodin, nikoli najednou.
Vyhněte se spouštění velkých úloh zpracování dat nebo asynchronních úloh v prioritním zpracování. Tyto úlohy mohou velmi rychle navýšit provoz a často nepotřebují vyšší výkon prioritního zpracování.
Pokud se s limity rychlosti nárůstu provozu setkáváte pravidelně, zvažte raději nákup kvóty úrovně škálování.
Sdílejí se limity rychlosti nárůstu provozu napříč mými projekty nebo organizacemi?
Ano, veškerý váš provoz se započítává do stejného limitu rychlosti nárůstu provozu.
Zásady
Co se stane, pokud prioritní zpracování nesplňuje cílovou latenci?
S případnými dotazy nebo obavami se prosím obraťte na svého AD. SLA pro prioritní zpracování budou posuzována stejně jako SLA úrovně škálování; pokud se nám v daném časovém okně nepodaří tato SLA splnit u zákazníků se smlouvami Enterprise, nabídneme kredity za služby.
Je prioritní zpracování kompatibilní s datovou rezidencí?
Ano.
Je prioritní zpracování kompatibilní se ZDR a BAA?
Ano.
