Теперь мы предлагаем Priority Processing для Enterprise API-клиентов, которым нужен доступ к более быстрой и стабильной производительности на некоторых моделях. Ниже приведены ответы на распространённые вопросы о том, как это работает, о ценах, доступности моделей, лимитах скорости, надёжности, политиках и требованиях к доступу.
Подробнее здесь.
Доступ
Кому доступен Priority Processing?
Priority Processing в настоящее время доступен Enterprise-клиентам.
Priority Processing доступен во всех регионах?
Доступность Priority Processing зависит от применимых законов и норм в каждой юрисдикции. Если у вас есть вопросы о доступности в вашем регионе, пожалуйста, свяжитесь со своим Account Director.
Цены
Как начать использовать Priority Processing?
Клиенты могут направлять трафик в Priority Processing на уровне каждого запроса, используя существующий параметр service_tier, с опцией service_tier="priority".
Как это взаимодействует со Scale Tier?
Scale Tier останется отдельным от Priority Processing. Запросы, отправленные в Priority Processing, будут тарифицироваться отдельно и не будут засчитываться в приобретённые пакеты TPM Scale Tier.
Можно ли автоматически отправлять избыточный трафик Scale Tier в Priority Processing?
Нет. Трафик, отправленный в Scale Tier, не будет автоматически переноситься в Priority Processing.
Как выставляются счета за Priority Processing?
Токены, обработанные в Priority Processing, будут тарифицироваться поштучно (per-token) по цене с премией относительно ставок Standard processing.
Привязано ли моё годовое обязательство к конкретному режиму обработки?
Нет. Все режимы обработки засчитываются в ваше годовое обязательство по расходам Enterprise.
Остаётся ли скидка на Cached input tokens?
Да! Cached Inputs получают ту же скидку 50–75%, что и в Standard processing.
Как посмотреть использование и расходы по Priority Processing?
Чтобы посмотреть токены, обработанные Priority Processing, перейдите на дашборд Usage, выберите Chat Completions или Responses и задайте Group by Service Tier. Чтобы посмотреть стоимость Priority Processing, перейдите на дашборд Usage и выберите Group by Line Item.
Модели
Доступен ли Priority Processing для long context, fine-tuned моделей, embeddings и т. д.?
Пока нет. В будущем мы оценим возможность предлагать Priority Processing для дополнительных продуктов помимо наших последних моделей.
Как другие модальности работают с Priority Processing?
Priority Processing поддерживает те же мультимодальные возможности, что доступны в Standard. В частности, изображения можно использовать в качестве входных данных для Priority Processing, и они обрабатываются с той же низкой задержкой.
Будут ли поддерживаться будущие модели?
Мы планируем предлагать Priority Processing для новых моделей GPT, но не гарантируем поддержку каждой модели.
Лимиты скорости
Какие лимиты скорости?
Потребление Priority Processing учитывается для лимитов скорости так же, как стандартный API-трафик.
Какие лимиты ramp rate?
В Priority Processing действуют лимиты ramp rate, чтобы обеспечивать стабильно высокую производительность для всех клиентов, сохраняя при этом гибкое ценообразование по запросу. Если (a) производительность Priority Processing ухудшилась И (b) трафик клиента растёт слишком быстро, то в редких случаях некоторые Priority-запросы могут быть понижены до Standard processing.
Текущий лимит ramp rate для Priority Processing определён в нашей основной документации здесь.
Рекомендации, как оставаться в пределах лимита ramp rate
Постепенно увеличивайте трафик при смене моделей. Например, если ваше приложение переходит со старого снапшота на новый, используйте feature flag, чтобы переносить трафик в течение нескольких часов, а не сразу.
Избегайте запуска крупной обработки данных или асинхронных задач на Priority Processing. Такие задачи могут очень быстро нарастить трафик и часто не нуждаются в улучшенной производительности Priority Processing.
Если вы регулярно упираетесь в лимиты ramp rate, рассмотрите покупку квоты Scale Tier вместо этого.
Лимиты ramp rate общие для моих проектов или организаций?
Да, весь ваш трафик учитывается в одном и том же лимите ramp rate.
Политики
Что делать, если Priority Processing не соответствует целевой задержке?
Пожалуйста, свяжитесь со своим AD по любым вопросам или проблемам. SLA для Priority Processing будут рассматриваться так же, как SLA Scale Tier; сервисные кредиты будут предоставлены, если мы не выполним эти SLA для клиентов на Enterprise-соглашениях в течение заданного периода времени.
Совместим ли Priority Processing с Data Residency?
Да.
Совместим ли Priority Processing с ZDR и BAA?
Да.
