Nous offrons maintenant le traitement prioritaire aux clients API Enterprise qui souhaitent accéder à une performance plus rapide et plus constante sur certains modèles. Vous trouverez ci-dessous des réponses aux questions courantes sur son fonctionnement, la tarification, la disponibilité des modèles, les limites de débit, la fiabilité, les politiques et l’admissibilité.

En savoir plus ici.

Accès

Qui peut accéder au traitement prioritaire?

Le traitement prioritaire est actuellement offert aux clients Enterprise.

Le traitement prioritaire est-il offert dans toutes les régions?

La disponibilité du traitement prioritaire dépend des lois et règlements applicables dans chaque territoire. Veuillez communiquer avec votre directeur de compte si vous avez des questions sur la disponibilité dans votre région.

Tarification

Comment commencer à utiliser le traitement prioritaire?

Les clients peuvent diriger le trafic vers le traitement prioritaire pour chaque requête à l’aide du paramètre existant service_tier, avec l’option service_tier="priority".

Comment cela interagit-il avec l’offre Scale?

L’offre Scale demeurera distincte du traitement prioritaire. Les requêtes envoyées au traitement prioritaire seront facturées séparément et ne seront pas déduites de vos lots TPM de l’offre Scale achetés.

Puis-je envoyer automatiquement mon trafic excédentaire de l’offre Scale vers le traitement prioritaire?

Non. Le trafic envoyé à l’offre Scale ne sera pas automatiquement redirigé vers le traitement prioritaire en cas de dépassement.

Comment le traitement prioritaire est-il facturé?

Les tokens servis par le traitement prioritaire seront facturés par token, à un prix supérieur aux tarifs du traitement standard.

Mon engagement annuel est-il lié à un mode de traitement particulier?

Non. Tous les modes de traitement sont pris en compte dans votre engagement de dépenses annuelles Enterprise.

Est-ce que j’obtiens encore un rabais sur les tokens d’entrée mis en cache?

Oui! Les entrées mises en cache bénéficient du même rabais de 50 à 75 % que dans le traitement standard.

Comment puis-je consulter mon utilisation et mes dépenses liées au traitement prioritaire?

Pour consulter les tokens traités par le traitement prioritaire, accédez au tableau de bord Utilisation, sélectionnez Chat Completions ou Responses, puis Regrouper par offre. Pour consulter le coût du traitement prioritaire, accédez au tableau de bord Utilisation, puis sélectionnez Regrouper par poste.

Modèles

Le traitement prioritaire est-il offert pour le contexte long, les modèles affinés, les embeddings, etc.?

Pas pour le moment. Nous évaluerons à l’avenir la possibilité d’offrir le traitement prioritaire pour d’autres produits au-delà de nos modèles les plus récents.

Comment les autres modalités fonctionnent-elles avec le traitement prioritaire?

Le traitement prioritaire prend en charge les mêmes capacités multimodales que celles offertes en mode Standard. En particulier, les images peuvent être utilisées comme entrées du traitement prioritaire et sont traitées avec la même faible latence.

Les futurs modèles seront-ils pris en charge?

Nous prévoyons d’offrir le traitement prioritaire pour les nouveaux modèles GPT, mais nous ne garantissons pas que chaque modèle sera pris en charge.

Limites de débit

Quelles sont les limites de débit?

La consommation du traitement prioritaire est traitée de la même façon que le trafic API standard pour les limites de débit.

Quelles sont les limites de débit de montée en charge?

Le traitement prioritaire comporte des limites de débit de montée en charge afin d’assurer une performance élevée et constante pour tous les clients, tout en offrant une tarification flexible à la demande. Si (a) la performance du traitement prioritaire est dégradée ET (b) le trafic d’un client augmente trop rapidement, certaines requêtes prioritaires peuvent, dans de rares cas, être plutôt rétrogradées au traitement standard.

La limite de débit de montée en charge actuelle du traitement prioritaire est définie dans notre documentation principale ici.

Pratiques exemplaires pour rester dans votre limite de débit de montée en charge

Augmentez graduellement le trafic lorsque vous changez de modèles. Par exemple, si votre application passe d’un instantané précédent à un nouveau, utilisez un indicateur de fonctionnalité pour faire migrer le trafic sur quelques heures plutôt que d’un seul coup.

Évitez d’exécuter de grands traitements de données ou des tâches asynchrones avec le traitement prioritaire. Ces tâches peuvent faire augmenter le trafic très rapidement et n’ont souvent pas besoin de la performance accrue du traitement prioritaire.
Si vous rencontrez régulièrement des limites de débit de montée en charge, envisagez plutôt d’acheter un quota de l’offre Scale.

Les limites de débit de montée en charge sont-elles partagées entre mes projets ou mes organisations?

Oui, tout votre trafic contribue à la même limite de débit de montée en charge.

Politiques

Que se passe-t-il si le traitement prioritaire n’atteint pas la cible de latence?

Veuillez communiquer avec votre directeur de compte pour toute question ou préoccupation. Les SLA du traitement prioritaire seront traités de la même façon que les SLA de l’offre Scale; des crédits de service seront offerts si nous ne respectons pas ces SLA pour les clients ayant des ententes Enterprise pendant une période donnée.

Le traitement prioritaire est-il compatible avec la résidence des données?

Oui.

Le traitement prioritaire est-il compatible avec ZDR et le BAA?