Ora offriamo l’elaborazione Priority per i clienti API Enterprise che desiderano accedere a prestazioni più rapide e più costanti su determinati modelli. Di seguito trovi le risposte alle domande più comuni su funzionamento, prezzi, disponibilità dei modelli, limiti di richieste, affidabilità, criteri e idoneità.

Scopri di più qui.

Accesso

Chi può accedere all’elaborazione Priority?

L’elaborazione Priority è attualmente disponibile per i clienti Enterprise.

L’elaborazione Priority è disponibile in tutte le regioni?

La disponibilità dell’elaborazione Priority dipende dalle leggi e dai regolamenti applicabili in ciascuna giurisdizione. Contatta il tuo Account Director se hai domande sulla disponibilità nella tua regione.

Prezzi

Come posso iniziare a usare l’elaborazione Priority?

I clienti possono indirizzare il traffico all’elaborazione Priority per singola richiesta usando il parametro esistente service_tier, con l’opzione service_tier="priority".

Come interagisce con Scale Tier?

Scale Tier rimarrà separato dall’elaborazione Priority. Le richieste inviate all’elaborazione Priority verranno fatturate separatamente e non verranno conteggiate nei pacchetti TPM Scale Tier acquistati.

Posso inviare automaticamente all’elaborazione Priority il traffico in eccesso di Scale Tier?

No. Il traffico inviato a Scale Tier non passerà automaticamente all’elaborazione Priority.

Come viene fatturata l’elaborazione Priority?

I token serviti dall’elaborazione Priority verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard.

Il mio impegno annuale è legato a una modalità di elaborazione specifica?

No. Tutte le modalità di elaborazione vengono conteggiate rispetto al tuo impegno di spesa annuale Enterprise.

Ricevo comunque uno sconto sui token di input memorizzati nella cache?

Sì! Gli input memorizzati nella cache ricevono lo stesso sconto del 50-75% previsto nell’elaborazione Standard.

Come posso visualizzare l’utilizzo e la spesa dell’elaborazione Priority?

Per visualizzare i token elaborati dall’elaborazione Priority, vai alla dashboard Usage, seleziona Chat Completions o Responses e Raggruppa per Livello di servizio. Per visualizzare il costo dell’elaborazione Priority, vai alla dashboard Usage e seleziona Raggruppa per voce di riga.

Modelli

L’elaborazione Priority è disponibile per contesto lungo, modelli fine-tuned, embedding, ecc.?

Non al momento. Valuteremo in futuro se offrire l’elaborazione Priority su altri prodotti oltre ai nostri modelli più recenti.

Come funzionano le altre modalità con l’elaborazione Priority?

L’elaborazione Priority supporta le stesse funzionalità multimodali disponibili su Standard. In particolare, le immagini possono essere usate come input per l’elaborazione Priority e vengono elaborate con la stessa bassa latenza.

I modelli futuri saranno supportati?

Prevediamo di offrire l’elaborazione Priority sui nuovi modelli GPT, ma non garantiamo che ogni modello sarà supportato.

Limiti di richieste

Quali sono i limiti di richieste?

Il consumo dell’elaborazione Priority viene trattato come il normale traffico API ai fini dei limiti di richieste.

Quali sono i limiti di aumento delle richieste?

L’elaborazione Priority prevede limiti di aumento delle richieste per garantire prestazioni elevate e costanti a tutti i clienti, offrendo al contempo prezzi flessibili on demand. Se (a) le prestazioni dell’elaborazione Priority sono degradate E (b) il traffico di un cliente sta aumentando troppo rapidamente, in rari casi alcune richieste Priority potrebbero essere invece declassate all’elaborazione Standard.

L’attuale limite di aumento delle richieste per l’elaborazione Priority è definito nella nostra documentazione principale qui.

Best practice per rimanere entro il limite di aumento delle richieste

Aumenta gradualmente il traffico quando cambi modello. Ad esempio, se la tua applicazione sta passando da uno snapshot precedente a uno nuovo, usa un feature flag per spostare il traffico nell’arco di alcune ore anziché tutto in una volta.

Evita di eseguire grandi attività di elaborazione dati o job asincroni sull’elaborazione Priority. Questi job possono aumentare il traffico molto rapidamente e spesso non richiedono le prestazioni migliorate dell’elaborazione Priority.
Se riscontri regolarmente limiti di aumento delle richieste, valuta invece l’acquisto di una quota Scale Tier.

I limiti di aumento delle richieste sono condivisi tra i miei progetti o le mie organizzazioni?

Sì, tutto il tuo traffico contribuisce allo stesso limite di aumento delle richieste.

Criteri

Cosa succede se l’elaborazione Priority non raggiunge l’obiettivo di latenza?

Contatta il tuo AD per qualsiasi domanda o dubbio. Gli SLA dell’elaborazione Priority saranno trattati come gli SLA di Scale Tier; verranno offerti crediti di servizio qualora non riuscissimo a rispettare tali SLA per i clienti con contratti Enterprise durante una determinata finestra temporale.

L’elaborazione Priority è compatibile con la residenza dei dati?

Sì.

L’elaborazione Priority è compatibile con ZDR e il BAA?

Sì.

FAQ sull’elaborazione Priority