Ahora ofrecemos procesamiento prioritario para clientes de API de Enterprise que quieren acceder a un rendimiento más rápido y constante en ciertos modelos. A continuación, encontrarás respuestas a preguntas frecuentes sobre cómo funciona, precios, disponibilidad de modelos, límites de solicitudes, confiabilidad, políticas y elegibilidad.

Obtén más información aquí.

Acceso

¿Quién puede acceder al procesamiento prioritario?

Actualmente, el procesamiento prioritario está disponible para clientes de Enterprise.

¿El procesamiento prioritario está disponible en todas las regiones?

La disponibilidad del procesamiento prioritario depende de las leyes y regulaciones aplicables en cada jurisdicción. Comunícate con tu Director de cuenta si tienes preguntas sobre la disponibilidad en tu región.

Precios

¿Cómo empiezo a usar el procesamiento prioritario?

Los clientes pueden dirigir tráfico al procesamiento prioritario por solicitud usando el parámetro existente service_tier, con la opción service_tier="priority".

¿Cómo interactúa esto con Nivel de capacidad?

Nivel de capacidad seguirá estando separado del procesamiento prioritario. Las solicitudes enviadas al procesamiento prioritario se facturarán por separado y no contarán para tus paquetes de TPM de Nivel de capacidad comprados.

¿Puedo enviar automáticamente mi tráfico excedente de Nivel de capacidad al procesamiento prioritario?

No. El tráfico enviado a Nivel de capacidad no se transferirá automáticamente al procesamiento prioritario.

¿Cómo se factura el procesamiento prioritario?

Los tokens servidos por el procesamiento prioritario se facturarán por token, con un precio superior en relación con las tarifas del procesamiento estándar.

¿Mi compromiso anual está vinculado a un modo de procesamiento específico?

No. Todos los modos de procesamiento cuentan para tu compromiso anual de gasto de Enterprise.

¿Sigo recibiendo un descuento en los tokens de entrada en caché?

¡Sí! Las entradas en caché reciben el mismo descuento del 50 % al 75 % que en el procesamiento estándar.

¿Cómo puedo ver mi uso y gasto de procesamiento prioritario?

Para ver los tokens procesados mediante procesamiento prioritario, ve al panel de Uso, selecciona Chat Completions o Responses, y agrupa por Nivel de servicio. Para ver el costo del procesamiento prioritario, ve al panel de Uso y selecciona Agrupar por elemento de línea.

Modelos

¿El procesamiento prioritario está disponible para contexto largo, modelos ajustados, embeddings, etc.?

No por el momento. Evaluaremos en el futuro si ofrecer procesamiento prioritario en productos adicionales más allá de nuestros modelos más recientes.

¿Cómo funcionan otras modalidades con el procesamiento prioritario?

El procesamiento prioritario admite las mismas capacidades multimodales disponibles en Standard. En particular, las imágenes se pueden usar como entradas para el procesamiento prioritario y se procesan con la misma latencia rápida.

¿Se admitirán modelos futuros?

Planeamos ofrecer procesamiento prioritario en nuevos modelos GPT, pero no garantizamos que todos los modelos sean compatibles.

Límites de solicitudes

¿Cuáles son los límites de solicitudes?

El consumo del procesamiento prioritario se trata igual que el tráfico estándar de API para los límites de solicitudes.

¿Cuáles son los límites de aumento de solicitudes?

El procesamiento prioritario tiene límites de aumento de solicitudes para garantizar un rendimiento alto y constante para todos los clientes, sin dejar de ofrecer precios flexibles y bajo demanda. Si (a) el rendimiento del procesamiento prioritario se ve degradado Y (b) el tráfico de un cliente aumenta demasiado rápido, en casos poco frecuentes algunas solicitudes prioritarias podrían degradarse a procesamiento estándar.

El límite actual de aumento de solicitudes para el procesamiento prioritario se define en nuestra documentación principal aquí.

Prácticas recomendadas para mantenerse dentro de tu límite de aumento de solicitudes

Aumenta el tráfico gradualmente al cambiar de modelo. Por ejemplo, si tu aplicación está haciendo la transición de una instantánea anterior a una nueva, usa una marca de función para hacer la transición del tráfico durante algunas horas en lugar de hacerlo todo de una vez.

Evita ejecutar trabajos grandes de procesamiento de datos o trabajos asincrónicos en el procesamiento prioritario. Estos trabajos pueden aumentar el tráfico muy rápido y, a menudo, no necesitan el mejor rendimiento del procesamiento prioritario.
Si sueles encontrarte con límites de aumento de solicitudes, considera comprar cuota de Nivel de capacidad en su lugar.

¿Los límites de aumento de solicitudes se comparten entre mis proyectos u organizaciones?

Sí, todo tu tráfico contribuye al mismo límite de aumento de solicitudes.

Políticas

¿Qué sucede si el procesamiento prioritario no cumple el objetivo de latencia?

Comunícate con tu AD si tienes preguntas o inquietudes. Los SLA del procesamiento prioritario se tratarán igual que los SLA de Nivel de capacidad; se ofrecerán créditos de servicio si no cumplimos esos SLA para clientes con acuerdos Enterprise durante un período determinado.

¿El procesamiento prioritario es compatible con la residencia de datos?

Sí.

¿El procesamiento prioritario es compatible con ZDR y el BAA?

Sí.

Preguntas frecuentes sobre procesamiento prioritario