Платформа API — Уровень производительности для существующих клиентов Enterprise

Уровень производительности на платформе API позволяет заранее приобрести определённое количество входных и выходных токенов API в минуту (так называемых «единиц токенов») для доступа к одному выделенному снимку модели. Каждая единица токенов приобретается на срок не менее 30 дней.После подписания формы заказа вы можете добавлять и удалять единицы токенов через учетную запись на платформе API. Обратите внимание, что просматривать настройки уровня производительности и приобретать единицы входных и выходных токенов могут только владельцы организации и уполномоченные пользователи.

Подробнее о тарифах для уровня производительности.

Как получить доступ к настройкам уровня производительности?

Владельцы организаций платформы API могут получить доступ к настройкам своего уровня производительности, нажав на значок шестеренки («Настройки») в правом верхнем углу страницы, а затем выбрав «Уровень производительности» в разделе «Организация» в меню в левой части экрана.

Страница настроек уровня производительности позволяет добавлять дополнительную пропускную способность, просматривать использование входных токенов, планировать потребности в пропускной способности, просматривать выделенные токены и проверять список уполномоченных покупателей.

Как я могу приобрести дополнительные ресурсы?

Вы можете приобрести дополнительные ресурсы, нажав кнопку «Добавить ресурсы» в правом верхнем углу страницы уровня производительности. Актуальные сведения о квотах TPM на единицу входных и выходных токенов см. на нашей основной странице уровня производительности.

После выбора типа токенов для покупки вы можете ввести количество или переместить ползунок, чтобы выбрать число токенов, которое хотите приобрести. Ползунок позволяет легко просматривать изменения TPM в разделе «Сводка» по мере изменения количества токенов. Мы также порекомендуем, сколько единиц нужно приобрести, чтобы обеспечить объём трафика за последние 30 дней.

Add token capacity dialog for gpt-4o with Input Tokens selected and input limit increasing from 40K to 60K

После выбора нажмите «Оформить заказ», чтобы подтвердить покупку в следующем модальном окне.

Обратите внимание, что цены, указанные в нашей сводке, являются нашими стандартными тарифами и не учитывают скидки, согласованные в форме заказа вашей организации. Все применимые скидки будут учтены и отражены в счете, выставленном вашей организации. Все приобретенные единицы будут активны до начала следующего расчетного периода, а после этого будут продлеваться ежедневно.

Как включить использование токенов уровня производительности для вызовов?

Вам потребуется перевести переключатель «Уровень производительности включен» в разделе «Настройки проекта» в положение «Вкл.».

Если вы используете API Completions, также ознакомьтесь с нашей документацией с объяснением ключа service_tier, чтобы решить, следует ли задавать его вручную или полагаться на поведение по умолчанию.

Вызовы API ответов по умолчанию используют service_tier=auto. Если для проекта включен уровень производительности, запросы, в которых не указан service_tier (или используется auto), по умолчанию будут использовать уровень производительности, если доступна квота уровня производительности. Запросы с service_tier=default будут использовать общие вычислительные ресурсы с оплатой по факту (PAYG).

Как просмотреть историю покупок и токены с истекшим сроком действия?

Вы можете просмотреть историю покупок уровня производительности на странице «Уровень производительности», выбрав модель в разделе «Выделенные токены».

Provisioned tokens table with active allocations for gpt-4o and gpt-4o-mini

После выбора модели вы сможете просмотреть токен с истекшим сроком действия и предыдущие транзакции в нижней части страницы.

Как изменить объем токенов?

Вы можете изменить объем токенов для модели, выбрав модель в разделе «Выделенные токены» на странице «Уровень производительности». После выбора модели найдите свою покупку в разделе «Активные» и нажмите «Отменить» рядом с ней, чтобы внести изменения.

В модальном окне вы можете ввести количество единиц для отмены напрямую или использовать ползунок, чтобы построить модель показателя TPM (например, показатель производительности) по мере выбора.

Edit Token Capacity dialog for gpt-4o canceling 1 package and reducing output limit TPM from 2.248M to 2.246M

Как можно просмотреть свои показатели RPM/TPM и использование в рамках уровня производительности?

Вы можете просмотреть сводку использования API вашей организацией на странице уровня производительности. Все отметки даты и времени отображаются по времени UTC. Данные могут отображаться с задержкой до 5 минут.

Input token usage chart for the last 30 days with several spikes and a peak near 700K

Вы можете просмотреть сведения об использовании на панели активности, выбрав модели вашего уровня производительности в раскрывающемся списке моделей. Вы можете просматривать эти данные за периоды 30 дней, 1 день и 15 минут. Ваши данные об использовании представлены с накоплением, чтобы показать объем использования модели, покрываемый вашим уровнем производительности, в сравнении с объемом использования, покрываемым тарифным планом вашего аккаунта.

Обратите внимание, что панель использования доступна для просмотра только владельцам организации.

Когда изменение моего объема токенов отобразится на панели использования?

Отражение внесённых вами изменений может занять до 24 часов. Сами изменения вступят в силу практически мгновенно.