Wir bieten jetzt Priority-Verarbeitung für Enterprise-API-Kund:innen an, die bei bestimmten Modellen schnellere und konsistentere Leistung nutzen möchten. Im Folgenden beantworten wir häufige Fragen zu Funktionsweise, Preisen, Modellverfügbarkeit, Ratenlimits, Zuverlässigkeit, Richtlinien und Berechtigung.

Mehr dazu erfährst du hier.

Zugriff

Wer kann auf die Priority-Verarbeitung zugreifen?

Die Priority-Verarbeitung ist derzeit für Enterprise-Kund:innen verfügbar.

Ist die Priority-Verarbeitung in allen Regionen verfügbar?

Die Verfügbarkeit der Priority-Verarbeitung hängt von den geltenden Gesetzen und Vorschriften in der jeweiligen Rechtsordnung ab. Wende dich bitte an deine:n Account Director, wenn du Fragen zur Verfügbarkeit in deiner Region hast.

Preise

Wie kann ich die Priority-Verarbeitung nutzen?

Kund:innen können Traffic pro Anfrage über den vorhandenen Parameter service_tier mit der Option service_tier="priority" an die Priority-Verarbeitung leiten.

Wie wirkt sich das auf Scale Tier aus?

Scale Tier bleibt von der Priority-Verarbeitung getrennt. Anfragen, die an die Priority-Verarbeitung gesendet werden, werden separat abgerechnet und nicht auf deine gekauften Scale-Tier-TPM-Pakete angerechnet.

Kann ich meinen Scale-Tier-Überlauf-Traffic automatisch an die Priority-Verarbeitung senden?

Nein. Traffic, der an Scale Tier gesendet wird, läuft nicht automatisch in die Priority-Verarbeitung über.

Wie wird die Priority-Verarbeitung abgerechnet?

Token, die über die Priority-Verarbeitung bereitgestellt werden, werden pro Token abgerechnet, mit einem Aufpreis gegenüber den Tarifen der Standardverarbeitung.

Ist meine jährliche Verpflichtung an einen bestimmten Verarbeitungsmodus gebunden?

Nein. Alle Verarbeitungsmodi werden auf deine jährliche Enterprise-Mindestabnahme angerechnet.

Erhalte ich weiterhin einen Rabatt auf zwischengespeicherte Eingabe-Token?

Ja! Zwischengespeicherte Eingaben erhalten denselben Rabatt von 50–75 % wie bei der Standardverarbeitung.

Wie kann ich meine Nutzung und Ausgaben für die Priority-Verarbeitung einsehen?

Um die von der Priority-Verarbeitung verarbeiteten Token einzusehen, öffne das Nutzungs-Dashboard, wähle Chat Completions oder Responses aus und gruppiere nach Servicestufe. Um die Kosten der Priority-Verarbeitung einzusehen, öffne das Nutzungs-Dashboard und wähle „Nach Posten gruppieren“ aus.

Modelle

Ist die Priority-Verarbeitung für Long Context, feinabgestimmte Modelle, Embeddings usw. verfügbar?

Derzeit nicht. Wir werden künftig prüfen, ob wir die Priority-Verarbeitung neben unseren neuesten Modellen auch für weitere Produkte anbieten.

Wie funktionieren andere Modalitäten mit der Priority-Verarbeitung?

Die Priority-Verarbeitung unterstützt dieselben multimodalen Funktionen wie Standard. Insbesondere können Bilder als Eingaben für die Priority-Verarbeitung verwendet werden und werden mit derselben niedrigen Latenz verarbeitet.

Werden zukünftige Modelle unterstützt?

Wir planen, die Priority-Verarbeitung für neue GPT-Modelle anzubieten, garantieren aber nicht, dass jedes Modell unterstützt wird.

Ratenlimits

Welche Ratenlimits gelten?

Der Verbrauch der Priority-Verarbeitung wird bei Ratenlimits genauso behandelt wie Standard-API-Traffic.

Welche Hochlauf-Ratenlimits gelten?

Für die Priority-Verarbeitung gelten Hochlauf-Ratenlimits, damit die Leistung für alle Kund:innen dauerhaft hoch bleibt und zugleich flexible On-Demand-Preise möglich sind. Wenn (a) die Leistung der Priority-Verarbeitung beeinträchtigt ist UND (b) der Traffic eines:einer Kund:in zu schnell ansteigt, können einige Priority-Anfragen in seltenen Fällen stattdessen auf die Standardverarbeitung herabgestuft werden.

Das aktuelle Hochlauf-Ratenlimit für die Priority-Verarbeitung ist in unserer Hauptdokumentation hier definiert.

Best Practices, um innerhalb deines Hochlauf-Ratenlimits zu bleiben

Erhöhe den Traffic schrittweise, wenn du Modelle wechselst. Wenn deine Anwendung zum Beispiel von einem früheren Snapshot auf einen neuen umgestellt wird, nutze ein Feature-Flag, um den Traffic über mehrere Stunden hinweg statt auf einmal umzustellen.

Vermeide es, große Datenverarbeitungs- oder asynchrone Jobs über die Priority-Verarbeitung auszuführen. Diese Jobs können den Traffic sehr schnell erhöhen und benötigen die bessere Leistung der Priority-Verarbeitung oft nicht.
Wenn du regelmäßig auf Hochlauf-Ratenlimits stößt, solltest du stattdessen den Kauf eines Scale-Tier-Kontingents in Betracht ziehen.

Werden Hochlauf-Ratenlimits über meine Projekte oder Organisationen hinweg geteilt?

Ja, dein gesamter Traffic wird auf dasselbe Hochlauf-Ratenlimit angerechnet.

Richtlinien

Was passiert, wenn die Priority-Verarbeitung das Latenzziel nicht erreicht?

Wende dich bei Fragen oder Bedenken bitte an deine:n AD. SLAs für die Priority-Verarbeitung werden genauso behandelt wie SLAs für Scale Tier. Servicegutschriften werden angeboten, falls wir diese SLAs für Kund:innen mit Enterprise-Vereinbarungen in einem bestimmten Zeitfenster nicht einhalten.

Ist die Priority-Verarbeitung mit Datenresidenz kompatibel?

Ja.

Ist die Priority-Verarbeitung mit ZDR und dem BAA kompatibel?

Ja.

FAQ zur Priority-Verarbeitung