Wir bieten jetzt Prioritätsverarbeitung für Enterprise-API-Kunden an, die bei bestimmten Modellen Zugang zu schnellerer, konsistenterer Performance möchten. Unten finden Sie Antworten auf häufige Fragen dazu, wie es funktioniert, zu Preisen, Modellverfügbarkeit, Rate Limits, Zuverlässigkeit, Richtlinien und Berechtigung.
Mehr erfahren Sie hier.
Zugriff
Wer kann auf Prioritätsverarbeitung zugreifen?
Prioritätsverarbeitung ist derzeit für Enterprise-Kunden verfügbar.
Ist Prioritätsverarbeitung in allen Regionen verfügbar?
Die Verfügbarkeit der Prioritätsverarbeitung hängt von den jeweils geltenden Gesetzen und Vorschriften in der jeweiligen Rechtsordnung ab. Bitte wenden Sie sich an Ihren Account Director, wenn Sie Fragen zur Verfügbarkeit in Ihrer Region haben.
Preise
Wie beginne ich mit der Nutzung der Prioritätsverarbeitung?
Kunden können Traffic pro Anfrage zur Prioritätsverarbeitung leiten, indem sie den bestehenden Parameter service_tier verwenden, mit der Option service_tier="priority".
Wie verhält sich das zu Scale Tier?
Scale Tier bleibt getrennt von der Prioritätsverarbeitung. An die Prioritätsverarbeitung gesendete Anfragen werden separat abgerechnet und werden nicht auf Ihre gekauften Scale-Tier-TPM-Bundles angerechnet.
Kann ich meinen Scale-Tier-Überlauftraffic automatisch an die Prioritätsverarbeitung senden?
Nein. An Scale Tier gesendeter Traffic läuft nicht automatisch zur Prioritätsverarbeitung über.
Wie wird Prioritätsverarbeitung abgerechnet?
Tokens, die über die Prioritätsverarbeitung bereitgestellt werden, werden pro Token abgerechnet und gegenüber den Standard-Verarbeitungsraten mit einem Aufpreis bepreist.
Ist meine jährliche Verpflichtung an einen bestimmten Verarbeitungsmodus gebunden?
Nein. Alle Verarbeitungsmodi werden auf Ihre jährliche Enterprise-Ausgabenverpflichtung angerechnet.
Erhalte ich weiterhin einen Rabatt auf gecachte Eingabe-Tokens?
Ja! Gecachte Eingaben erhalten denselben Rabatt von 50–75 % wie bei der Standardverarbeitung.
Wie kann ich meine Nutzung und Ausgaben für die Prioritätsverarbeitung einsehen?
Um Tokens anzuzeigen, die durch Prioritätsverarbeitung verarbeitet wurden, gehen Sie zum Usage-Dashboard, wählen Sie Chat Completions oder Responses und gruppieren Sie nach Service Tier. Um die Kosten der Prioritätsverarbeitung anzuzeigen, gehen Sie zum Usage-Dashboard und wählen Sie Gruppieren nach Line Item.
Modelle
Ist Prioritätsverarbeitung für Long-Context-, Fine-Tuning-Modelle, Embeddings usw. verfügbar?
Derzeit nicht. Wir werden künftig prüfen, ob wir Prioritätsverarbeitung auch für weitere Produkte über unsere neuesten Modelle hinaus anbieten.
Wie funktionieren andere Modalitäten mit Prioritätsverarbeitung?
Prioritätsverarbeitung unterstützt dieselben multimodalen Funktionen wie Standard. Insbesondere können Bilder als Eingaben für die Prioritätsverarbeitung verwendet werden und werden mit derselben schnellen Latenz verarbeitet.
Werden zukünftige Modelle unterstützt?
Wir planen, Prioritätsverarbeitung für neue GPT-Modelle anzubieten, garantieren aber nicht, dass jedes Modell unterstützt wird.
Rate Limits
Wie hoch sind die Rate Limits?
Der Verbrauch der Prioritätsverarbeitung wird bei den Rate Limits genauso behandelt wie Standard-API-Traffic.
Was sind die Ramp-Rate-Limits?
Die Prioritätsverarbeitung hat Ramp-Rate-Limits, um eine konstant hohe Performance für alle Kunden sicherzustellen und gleichzeitig flexible, bedarfsbasierte Preise zu ermöglichen. Wenn (a) die Performance der Prioritätsverarbeitung beeinträchtigt ist UND (b) der Traffic eines Kunden zu schnell ansteigt, können in seltenen Fällen einige Priority-Anfragen stattdessen auf Standardverarbeitung herabgestuft werden.
Das aktuelle Ramp-Rate-Limit der Prioritätsverarbeitung ist in unserer primären Dokumentation hier definiert.
Best Practices, um innerhalb Ihres Ramp-Rate-Limits zu bleiben
Erhöhen Sie den Traffic schrittweise, wenn Sie Modelle wechseln. Wenn Ihre Anwendung beispielsweise von einem früheren Snapshot auf einen neuen wechselt, verwenden Sie ein Feature-Flag, um den Traffic über einige Stunden statt auf einmal umzustellen.
Vermeiden Sie große Datenverarbeitungen oder asynchrone Jobs in der Prioritätsverarbeitung. Diese Jobs können den Traffic sehr schnell hochfahren und benötigen häufig nicht die verbesserte Performance der Prioritätsverarbeitung.
Wenn Sie regelmäßig Ramp-Rate-Limits erreichen, erwägen Sie stattdessen den Kauf von Scale-Tier-Kontingent.
Werden Ramp-Rate-Limits über meine Projekte oder Organisationen hinweg geteilt?
Ja, Ihr gesamter Traffic trägt zum selben Ramp-Rate-Limit bei.
Richtlinien
Was passiert, wenn die Prioritätsverarbeitung das Latenzziel nicht erreicht?
Bitte wenden Sie sich bei Fragen oder Anliegen an Ihren AD. SLAs für die Prioritätsverarbeitung werden genauso behandelt wie Scale-Tier-SLAs; Servicegutschriften werden angeboten, falls wir diese SLAs für Kunden mit Enterprise-Vereinbarungen innerhalb eines bestimmten Zeitfensters nicht einhalten.
Ist Prioritätsverarbeitung mit Data Residency kompatibel?
Ja.
Ist Prioritätsverarbeitung mit ZDR und der BAA kompatibel?
Ja.
