Ahora ofrecemos procesamiento prioritario para clientes de la API Enterprise que quieren acceder a un rendimiento más rápido y constante en determinados modelos. A continuación encontrarás respuestas a preguntas frecuentes sobre cómo funciona, los precios, la disponibilidad de modelos, los límites de solicitudes, la fiabilidad, las políticas y la elegibilidad.

Más información aquí.

Acceso

¿Quién puede acceder al procesamiento prioritario?

El procesamiento prioritario está disponible actualmente para clientes Enterprise.

¿Está disponible el procesamiento prioritario en todas las regiones?

La disponibilidad del procesamiento prioritario depende de las leyes y normativas aplicables en cada jurisdicción. Ponte en contacto con tu director de cuenta si tienes preguntas sobre la disponibilidad en tu región.

Precios

¿Cómo empiezo a usar el procesamiento prioritario?

Los clientes pueden dirigir el tráfico al procesamiento prioritario solicitud por solicitud usando el parámetro existente service_tier, con la opción service_tier="priority".

¿Cómo interactúa esto con el Nivel de capacidad?

El Nivel de capacidad seguirá estando separado del procesamiento prioritario. Las solicitudes enviadas al procesamiento prioritario se facturarán por separado y no contarán para tus paquetes de TPM del Nivel de capacidad comprados.

¿Puedo enviar automáticamente al procesamiento prioritario el tráfico excedente de mi Nivel de capacidad?

No. El tráfico enviado al Nivel de capacidad no se transferirá automáticamente al procesamiento prioritario.

¿Cómo se factura el procesamiento prioritario?

Los tokens servidos por el procesamiento prioritario se facturarán por token, con un precio superior a las tarifas del procesamiento estándar.

¿Mi compromiso anual está vinculado a un modo de procesamiento específico?

No. Todos los modos de procesamiento cuentan para tu compromiso anual de gasto de Enterprise.

¿Sigo obteniendo un descuento en los tokens de entrada en caché?

¡Sí! Las entradas en caché reciben el mismo descuento del 50 al 75 % que tienen en el procesamiento estándar.

¿Cómo puedo ver mi uso y gasto de procesamiento prioritario?

Para ver los tokens procesados mediante procesamiento prioritario, ve al panel de uso, selecciona Chat Completions o Responses y Agrupar por Nivel de servicio. Para ver el coste del procesamiento prioritario, ve al panel de uso y selecciona Agrupar por partida.

Modelos

¿Está disponible el procesamiento prioritario para contexto largo, modelos ajustados, embeddings, etc.?

No por ahora. Evaluaremos en el futuro si ofrecer procesamiento prioritario en productos adicionales más allá de nuestros modelos más recientes.

¿Cómo funcionan otras modalidades con el procesamiento prioritario?

El procesamiento prioritario admite las mismas capacidades multimodales disponibles en Standard. En concreto, las imágenes pueden usarse como entradas para el procesamiento prioritario y se procesan con la misma baja latencia.

¿Se admitirán modelos futuros?

Tenemos previsto ofrecer procesamiento prioritario en nuevos modelos GPT, pero no garantizamos que todos los modelos sean compatibles.

Límites de solicitudes

¿Cuáles son los límites de solicitudes?

El consumo del procesamiento prioritario se trata igual que el tráfico estándar de la API a efectos de límites de solicitudes.

¿Cuáles son los límites de incremento de solicitudes?

El procesamiento prioritario tiene límites de incremento de solicitudes para garantizar un rendimiento alto y constante para todos los clientes, a la vez que ofrece precios flexibles y bajo demanda. Si (a) el rendimiento del procesamiento prioritario se degrada Y (b) el tráfico de un cliente aumenta demasiado rápido, en casos excepcionales algunas solicitudes prioritarias pueden pasar al procesamiento estándar.

El límite actual de incremento de solicitudes del procesamiento prioritario se define en nuestra documentación principal aquí.

Prácticas recomendadas para mantenerse dentro del límite de incremento de solicitudes

Aumenta el tráfico gradualmente al cambiar de modelo. Por ejemplo, si tu aplicación está pasando de una instantánea anterior a una nueva, usa una marca de función para trasladar el tráfico a lo largo de unas horas en lugar de hacerlo todo de una vez.

Evita ejecutar trabajos grandes de procesamiento de datos o asíncronos en el procesamiento prioritario. Estos trabajos pueden aumentar el tráfico muy rápidamente y, a menudo, no necesitan el rendimiento mejorado del procesamiento prioritario.
Si encuentras habitualmente límites de incremento de solicitudes, considera comprar cuota del Nivel de capacidad.

¿Se comparten los límites de incremento de solicitudes entre mis proyectos u organizaciones?

Sí, todo tu tráfico contribuye al mismo límite de incremento de solicitudes.

Políticas

¿Qué ocurre si el procesamiento prioritario no cumple el objetivo de latencia?

Ponte en contacto con tu AD si tienes preguntas o dudas. Los SLA del procesamiento prioritario se tratarán igual que los SLA del Nivel de capacidad; se ofrecerán créditos de servicio si no cumplimos esos SLA para clientes con contratos Enterprise durante un periodo determinado.

¿Es compatible el procesamiento prioritario con la residencia de datos?

Sí.

¿Es compatible el procesamiento prioritario con ZDR y el BAA?

Sí.

Preguntas frecuentes sobre el procesamiento prioritario