OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

FAQ sur le traitement prioritaire

Questions fréquentes sur le traitement prioritaire

Dernière mise à jour : yesterday

Nous proposons désormais le traitement prioritaire aux clients Enterprise de l’API qui souhaitent accéder à des performances plus rapides et plus régulières sur certains modèles. Vous trouverez ci-dessous des réponses aux questions courantes sur son fonctionnement, les tarifs, la disponibilité des modèles, les limites de débit, la fiabilité, les politiques et l’éligibilité.

En savoir plus ici.

Accès

Qui peut accéder au traitement prioritaire ?

Le traitement prioritaire est actuellement disponible pour les clients Enterprise.

Le traitement prioritaire est-il disponible dans toutes les régions ?

La disponibilité du traitement prioritaire dépend des lois et réglementations applicables dans chaque juridiction. Veuillez contacter votre Account Director si vous avez des questions sur la disponibilité dans votre région.

Tarification

Comment commencer à utiliser le traitement prioritaire ?

Les clients peuvent diriger le trafic vers le traitement prioritaire au cas par cas, par requête, à l’aide du paramètre existant service_tier, avec l’option service_tier="priority".

Comment cela interagit-il avec Scale Tier ?

Scale Tier restera distinct du traitement prioritaire. Les requêtes envoyées au traitement prioritaire seront facturées séparément et ne seront pas décomptées de vos lots TPM Scale Tier achetés.

Puis-je envoyer automatiquement le trafic de dépassement de Scale Tier vers le traitement prioritaire ?

Non. Le trafic envoyé vers Scale Tier ne basculera pas automatiquement vers le traitement prioritaire.

Comment le traitement prioritaire est-il facturé ?

Les tokens servis via le traitement prioritaire sont facturés au token, à un tarif majoré par rapport aux tarifs du traitement standard.

Mon engagement annuel est-il lié à un mode de traitement spécifique ?

Non. Tous les modes de traitement sont pris en compte dans votre engagement annuel de dépenses Enterprise.

Bénéficiai-je toujours d’une remise sur les tokens d’entrée mis en cache ?

Oui ! Les entrées mises en cache bénéficient de la même remise de 50 à 75 % que dans le traitement standard.

Comment consulter mon utilisation et mes dépenses liées au traitement prioritaire ?

Pour afficher les tokens traités via le traitement prioritaire, accédez au tableau de bord Usage, sélectionnez Chat Completions ou Responses, puis regroupez par Service Tier. Pour afficher le coût du traitement prioritaire, accédez au tableau de bord Usage et sélectionnez Regrouper par poste de facturation.

Modèles

Le traitement prioritaire est-il disponible pour les contextes longs, les modèles fine-tunés, les embeddings, etc. ?

Pas pour le moment. Nous évaluerons à l’avenir s’il convient de proposer le traitement prioritaire sur d’autres produits au-delà de nos modèles les plus récents.

Comment les autres modalités fonctionnent-elles avec le traitement prioritaire ?

Le traitement prioritaire prend en charge les mêmes capacités multimodales disponibles en standard. En particulier, les images peuvent être utilisées en entrée du traitement prioritaire et sont traitées avec la même latence faible.

Les futurs modèles seront-ils pris en charge ?

Nous prévoyons de proposer le traitement prioritaire sur les nouveaux modèles GPT, mais nous ne garantissons pas que chaque modèle sera pris en charge.

Limites de débit

Quelles sont les limites de débit ?

La consommation via le traitement prioritaire est traitée de la même manière que le trafic API standard pour les limites de débit.

Quelles sont les limites de débit d’augmentation progressive (ramp rate) ?

Le traitement prioritaire a des limites de débit d’augmentation progressive (ramp rate) afin de garantir des performances constamment élevées pour tous les clients, tout en offrant une tarification flexible à la demande. Si (a) les performances du traitement prioritaire se dégradent ET (b) le trafic d’un client augmente trop rapidement, alors certaines requêtes Priority peuvent, dans de rares cas, être rétrogradées vers le traitement standard.

La limite actuelle du ramp rate pour le traitement prioritaire est définie dans notre documentation principale ici.

Bonnes pratiques pour rester dans votre limite de ramp rate

  • Augmentez progressivement le trafic lorsque vous changez de modèles. Par exemple, si votre application passe d’un instantané précédent à un nouveau, utilisez un feature flag pour basculer le trafic sur quelques heures plutôt que d’un seul coup.

  • Évitez d’exécuter de gros traitements de données ou des tâches asynchrones via le traitement prioritaire. Ces tâches peuvent faire augmenter le trafic très rapidement et n’ont souvent pas besoin des performances améliorées du traitement prioritaire.

  • Si vous rencontrez régulièrement des limites de ramp rate, envisagez plutôt d’acheter un quota Scale tier.

Les limites de ramp rate sont-elles partagées entre mes projets ou organisations ?

Oui, tout votre trafic contribue à la même limite de ramp rate.

Politiques

Que se passe-t-il si le traitement prioritaire ne respecte pas la cible de latence ?

Veuillez contacter votre AD pour toute question ou préoccupation. Les SLA du traitement prioritaire seront traités comme les SLA Scale Tier ; des crédits de service seront accordés si nous ne respectons pas ces SLA pour les clients disposant de contrats Enterprise sur une fenêtre de temps donnée.

Le traitement prioritaire est-il compatible avec la résidence des données (Data Residency) ?

Oui.

Le traitement prioritaire est-il compatible avec ZDR et le BAA ?

Oui.

Cet article vous a-t-il été utile ?