Nous proposons le mode Rapide aux clients de l’API qui souhaitent bénéficier de performances plus rapides et plus constantes sur certains modèles. Vous trouverez ci-dessous les réponses aux questions fréquentes sur son fonctionnement, sa tarification, la disponibilité des modèles, les limites de débit, la fiabilité, les politiques et les critères d’éligibilité.

Remarque : le traitement prioritaire a été renommé mode Rapide le 30 juillet 2026. Vous pouvez utiliser service_tier: priority ou service_tier: fast dans vos requêtes API.

En savoir plus ici.

Le mode Rapide est-il disponible dans toutes les régions ?

La disponibilité du mode Rapide dépend des lois et réglementations applicables dans chaque juridiction. Pour toute question sur la disponibilité dans votre région, veuillez contacter votre directeur de compte.

Fonctionnement

Les clients peuvent diriger le trafic vers le mode Rapide pour chaque requête à l’aide du paramètre service_tier existant, avec l’option service_tier = "fast".

Les tokens traités par le mode Rapide seront facturés par token, à un tarif supérieur à celui du traitement standard.

Outre la configuration au niveau de chaque requête, vous pouvez également définir le mode Rapide par défaut pour un projet dans Paramètres du projet > Offre par défaut : Rapide. Vous pouvez toujours remplacer ce réglage pour chaque requête. Sélectionner Rapide dans les paramètres de votre projet revient à sélectionner Prioritaire.

Comment cela fonctionne-t-il avec l’offre Scale ?

L’offre Scale restera distincte du mode Rapide. Les requêtes envoyées au mode Rapide seront facturées séparément et ne seront pas déduites de vos forfaits TPM achetés dans le cadre de l’offre Scale.

Puis-je envoyer automatiquement vers le mode Rapide le trafic dépassant la capacité de mon offre Scale ?

Non. Le trafic envoyé à l’offre Scale ne sera pas automatiquement transféré vers le mode Rapide en cas de dépassement.

Comment le mode Rapide est-il facturé ?

Les tokens traités par le mode Rapide seront facturés par token, à un tarif supérieur à celui du traitement standard.

Mon engagement annuel est-il lié à un mode de traitement particulier ?

Non. Tous les modes de traitement sont pris en compte dans votre engagement de dépenses Enterprise annuel.

La réduction s’applique-t-elle toujours aux tokens d’entrée mis en cache ?

Oui ! Les entrées mises en cache bénéficient de la même réduction de 50 à 75 % qu’avec le traitement standard.

Comment consulter mon utilisation du mode Rapide et les dépenses associées ?

Pour consulter les tokens traités par le mode Rapide (anciennement traitement prioritaire), accédez au tableau de bord Utilisation, sélectionnez Chat Completions ou Responses, puis Regrouper par offre.

Pour consulter le coût du mode Rapide, accédez au tableau de bord Utilisation et sélectionnez Regrouper par poste.

Dans le tableau de bord Utilisation, les requêtes dont le service_tier est priority ou fast continueront d’apparaître sous priority. Cela sera mis à jour pour les futurs modèles.

Modèles

Le mode Rapide est-il disponible pour les contextes longs, les modèles affinés, les embeddings, etc. ?

Pas pour le moment. Nous évaluerons ultérieurement la possibilité de proposer le mode Rapide sur d’autres produits que nos modèles les plus récents.

Comment les autres modalités fonctionnent-elles avec le mode Rapide ?

Le mode Rapide prend en charge les mêmes capacités multimodales que le traitement standard. En particulier, les images peuvent être utilisées comme entrées pour le traitement prioritaire et sont traitées avec la même faible latence.

Les futurs modèles seront-ils pris en charge ?

Nous prévoyons de proposer le mode Rapide sur les nouveaux modèles GPT, mais nous ne garantissons pas la prise en charge de chaque modèle.

Limites de débit

Quelles sont les limites de débit ?

Pour les limites de débit, la consommation du traitement prioritaire est traitée comme le trafic API standard.

Quelles sont les limites de débit lors des montées en charge ?

Le mode Rapide applique des limites de débit lors des montées en charge afin de garantir des performances élevées et constantes à tous les clients, tout en proposant une tarification flexible à la demande. Si (a) les performances du mode Rapide sont dégradées ET (b) le trafic d’un client augmente trop rapidement, certaines requêtes pourront, dans de rares cas, être rétrogradées vers le traitement standard.

La limite de débit actuelle du mode Rapide lors des montées en charge est définie ici dans notre documentation principale.

Bonnes pratiques pour respecter votre limite de débit lors des montées en charge

Augmentez progressivement le trafic lorsque vous changez de modèle. Par exemple, si votre application passe d’un instantané précédent à un nouveau, utilisez un indicateur de fonctionnalité pour transférer le trafic sur quelques heures plutôt que d’un seul coup.

Évitez d’exécuter de grands traitements de données ou des tâches asynchrones en mode Rapide. Ces tâches peuvent faire augmenter le trafic très rapidement et n’ont souvent pas besoin des performances accrues du mode Rapide.

Si vous atteignez régulièrement les limites de débit lors des montées en charge, envisagez plutôt d’acheter un quota de l’offre Scale.

Les limites de débit lors des montées en charge sont-elles partagées entre mes projets ou mes organisations ?

Oui, l’ensemble de votre trafic est pris en compte dans la même limite de débit lors des montées en charge.

Politiques

Que se passe-t-il si le mode Rapide n’atteint pas l’objectif de latence ?

Pour toute question ou préoccupation, veuillez contacter votre AD. Les SLA du mode Rapide seront traités comme ceux de l’offre Scale ; des crédits de service seront accordés aux clients sous contrat Enterprise si nous ne respectons pas ces SLA pendant une période donnée.

Le mode Rapide est-il compatible avec la résidence des données ?

Oui.

Le mode Rapide est-il compatible avec ZDR et le BAA ?