OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Preguntas frecuentes sobre el procesamiento prioritario

Preguntas frecuentes sobre el procesamiento prioritario

Actualización: 2 days ago

Ahora ofrecemos procesamiento prioritario para clientes de Enterprise API que quieren acceder a un rendimiento más rápido y uniforme en determinados modelos. A continuación encontrarás respuestas a preguntas habituales sobre su funcionamiento, precios, disponibilidad de modelos, límites de tasa, fiabilidad, políticas y elegibilidad.

Más información aquí.

Acceso

¿Quién puede acceder al procesamiento prioritario?

El procesamiento prioritario está disponible actualmente para clientes Enterprise.

¿Está disponible el procesamiento prioritario en todas las regiones?

La disponibilidad del procesamiento prioritario depende de las leyes y normativas aplicables en cada jurisdicción. Ponte en contacto con tu Account Director si tienes preguntas sobre la disponibilidad en tu región.

Precios

¿Cómo empiezo a usar el procesamiento prioritario?

Los clientes pueden dirigir tráfico al procesamiento prioritario por solicitud usando el parámetro existente service_tier, con la opción service_tier="priority".

¿Cómo interactúa esto con Scale Tier?

Scale Tier seguirá siendo independiente del procesamiento prioritario. Las solicitudes enviadas al procesamiento prioritario se facturarán por separado y no contarán para los paquetes de TPM de Scale Tier que hayas comprado.

¿Puedo enviar automáticamente al procesamiento prioritario el tráfico excedente de mi Scale Tier?

No. El tráfico enviado a Scale Tier no se desviará automáticamente al procesamiento prioritario.

¿Cómo se factura el procesamiento prioritario?

Los tokens servidos por el procesamiento prioritario se facturarán por token, con un precio superior al de las tarifas de procesamiento estándar.

¿Mi compromiso anual está vinculado a un modo de procesamiento concreto?

No. Todos los modos de procesamiento cuentan para tu compromiso anual de gasto Enterprise.

¿Sigo obteniendo un descuento en los tokens de entrada en caché?

¡Sí! Las entradas en caché reciben el mismo descuento del 50-75 % que en el procesamiento estándar.

¿Cómo veo mi uso y gasto de procesamiento prioritario?

Para ver los tokens procesados por el procesamiento prioritario, ve al panel de uso, selecciona Chat Completions o Responses y agrupa por Service Tier. Para ver el coste del procesamiento prioritario, ve al panel de uso y selecciona Agrupar por elemento de línea.

Modelos

¿Está disponible el procesamiento prioritario para contexto largo, modelos ajustados, embeddings, etc.?

No por ahora. En el futuro evaluaremos si ofrecer procesamiento prioritario en productos adicionales además de nuestros modelos más recientes.

¿Cómo funcionan otras modalidades con el procesamiento prioritario?

El procesamiento prioritario admite las mismas capacidades multimodales disponibles en Standard. En concreto, las imágenes pueden usarse como entradas para el procesamiento prioritario y se procesan con la misma baja latencia.

¿Se admitirán modelos futuros?

Tenemos previsto ofrecer procesamiento prioritario en nuevos modelos GPT, pero no garantizamos que todos los modelos sean compatibles.

Límites de tasa

¿Cuáles son los límites de tasa?

El consumo de procesamiento prioritario se trata igual que el tráfico estándar de API a efectos de límites de tasa.

¿Cuáles son los límites de tasa de aumento?

El procesamiento prioritario tiene límites de tasa de aumento para garantizar un rendimiento alto y constante para todos los clientes, sin dejar de ofrecer precios flexibles bajo demanda. Si (a) el rendimiento del procesamiento prioritario se degrada Y (b) el tráfico de un cliente aumenta demasiado rápido, entonces algunas solicitudes prioritarias pueden degradarse a procesamiento estándar en raras ocasiones.

El límite actual de tasa de aumento del procesamiento prioritario está definido en nuestra documentación principal aquí.

Prácticas recomendadas para mantenerse dentro del límite de tasa de aumento

  • Aumenta gradualmente el tráfico al cambiar de modelo. Por ejemplo, si tu aplicación está pasando de una instantánea anterior a una nueva, usa una feature flag para hacer la transición del tráfico a lo largo de unas horas en lugar de hacerlo todo a la vez.

  • Evita ejecutar trabajos grandes de procesamiento de datos o trabajos asíncronos en el procesamiento prioritario. Estos trabajos pueden aumentar el tráfico muy rápidamente y a menudo no necesitan la mejora de rendimiento del procesamiento prioritario.

  • Si te encuentras habitualmente con límites de tasa de aumento, considera comprar cuota de Scale Tier en su lugar.

¿Se comparten los límites de tasa de aumento entre mis proyectos u organizaciones?

Sí, todo tu tráfico contribuye al mismo límite de tasa de aumento.

Políticas

¿Qué ocurre si el procesamiento prioritario no cumple el objetivo de latencia?

Ponte en contacto con tu AD si tienes cualquier pregunta o duda. Los SLA del procesamiento prioritario se tratarán igual que los SLA de Scale Tier; se ofrecerán créditos de servicio si no cumplimos esos SLA para clientes con acuerdos Enterprise durante una ventana temporal determinada.

¿Es compatible el procesamiento prioritario con la residencia de datos?

Sí.

¿Es compatible el procesamiento prioritario con ZDR y el BAA?

Sí.

¿Te ha resultado útil este artículo?