ขณะนี้เรามี Priority processing สำหรับลูกค้า Enterprise API ที่ต้องการเข้าถึงประสิทธิภาพที่เร็วขึ้นและสม่ำเสมอยิ่งขึ้นบนบางโมเดล ด้านล่างนี้คือคำตอบสำหรับคำถามที่พบบ่อยเกี่ยวกับวิธีการทำงาน ราคา ความพร้อมใช้งานของโมเดล ขีดจำกัดอัตรา ความเชื่อถือได้ นโยบาย และคุณสมบัติในการใช้งาน
ดูข้อมูลเพิ่มเติมได้ที่นี่
การเข้าถึง
ใครบ้างที่สามารถเข้าถึง Priority processing ได้?
ปัจจุบัน Priority processing พร้อมให้บริการสำหรับลูกค้า Enterprise
Priority processing พร้อมใช้งานในทุกภูมิภาคหรือไม่?
ความพร้อมใช้งานของ Priority processing ขึ้นอยู่กับกฎหมายและข้อบังคับที่ใช้บังคับในแต่ละเขตอำนาจศาล โปรดติดต่อ Account Director ของคุณหากมีคำถามเกี่ยวกับความพร้อมใช้งานในภูมิภาคของคุณ
ราคา
ฉันจะเริ่มใช้ Priority processing ได้อย่างไร?
ลูกค้าสามารถส่งทราฟฟิกไปยัง Priority processing เป็นรายคำขอโดยใช้พารามิเตอร์ service_tier ที่มีอยู่แล้ว พร้อมตัวเลือก service_tier="priority"
สิ่งนี้ทำงานร่วมกับ Scale Tier อย่างไร?
Scale Tier จะยังคงแยกจาก Priority processing คำขอที่ส่งไปยัง Priority processing จะถูกเรียกเก็บเงินแยกต่างหาก และจะไม่นับรวมในแพ็กเกจ TPM ของ Scale Tier ที่คุณซื้อไว้
ฉันสามารถส่งทราฟฟิกส่วนเกินจาก Scale Tier ไปยัง Priority processing โดยอัตโนมัติได้หรือไม่?
ไม่ได้ ทราฟฟิกที่ส่งไปยัง Scale Tier จะไม่ถูกส่งต่อไปยัง Priority processing โดยอัตโนมัติ
มีการเรียกเก็บเงินสำหรับ Priority processing อย่างไร?
Token ที่ให้บริการผ่าน Priority processing จะถูกเรียกเก็บเงินตามจำนวน Token โดยมีราคาสูงกว่าอัตราของ Standard processing
ข้อผูกพันรายปีของฉันผูกกับโหมดการประมวลผลเฉพาะหรือไม่?
ไม่ โหมดการประมวลผลทั้งหมดจะนับรวมในข้อผูกพันการใช้จ่าย Enterprise รายปีของคุณ
ฉันยังคงได้รับส่วนลดสำหรับ Cached input tokens หรือไม่?
ใช่! Cached Inputs ได้รับส่วนลด 50-75% เช่นเดียวกับใน Standard processing
ฉันจะดูการใช้งานและค่าใช้จ่ายของ Priority processing ได้อย่างไร?
หากต้องการดู Token ที่ประมวลผลโดย Priority processing ให้ไปที่แดชบอร์ด Usage เลือก Chat Completions หรือ Responses แล้วเลือก Group by Service Tier หากต้องการดูค่าใช้จ่ายของ Priority processing ให้ไปที่แดชบอร์ด Usage แล้วเลือก Group by Line Item
โมเดล
Priority processing พร้อมใช้งานสำหรับ long context, โมเดลที่ fine-tuned, embeddings ฯลฯ หรือไม่?
ขณะนี้ยังไม่พร้อมใช้งาน เราจะประเมินในอนาคตว่าจะให้บริการ Priority processing กับผลิตภัณฑ์เพิ่มเติมนอกเหนือจากโมเดลล่าสุดของเราหรือไม่
modalities อื่นๆ ทำงานร่วมกับ Priority processing อย่างไร?
Priority processing รองรับความสามารถแบบมัลติโหมดเช่นเดียวกับที่มีใน Standard โดยเฉพาะอย่างยิ่ง สามารถใช้รูปภาพเป็นอินพุตสำหรับ Priority processing ได้ และจะได้รับการประมวลผลด้วยความหน่วงต่ำที่รวดเร็วเช่นเดียวกัน
จะรองรับโมเดลในอนาคตหรือไม่?
เราวางแผนที่จะให้บริการ Priority processing กับโมเดล GPT ใหม่ แต่เราไม่รับประกันว่าจะรองรับทุกโมเดล
ขีดจำกัดอัตรา
ขีดจำกัดอัตราคืออะไร?
การใช้งาน Priority processing จะถูกปฏิบัติเช่นเดียวกับทราฟฟิก API มาตรฐานสำหรับขีดจำกัดอัตรา
ขีดจำกัดอัตราการเพิ่มขึ้นคืออะไร?
Priority processing มีขีดจำกัดอัตราการเพิ่มขึ้นเพื่อให้มั่นใจถึงประสิทธิภาพสูงอย่างสม่ำเสมอสำหรับลูกค้าทุกราย ขณะเดียวกันก็ยังมีการกำหนดราคาแบบยืดหยุ่นตามการใช้งานจริง หาก (a) ประสิทธิภาพของ Priority processing ลดลง และ (b) ทราฟฟิกของลูกค้าเพิ่มขึ้นเร็วเกินไป คำขอ Priority บางรายการอาจถูกปรับลดเป็น Standard processing แทนในบางกรณีที่พบได้ไม่บ่อย
ขีดจำกัดอัตราการเพิ่มขึ้นของ Priority processing ปัจจุบันกำหนดไว้ในเอกสารหลักของเราที่นี่
แนวทางปฏิบัติที่ดีที่สุดเพื่อให้อยู่ภายในขีดจำกัดอัตราการเพิ่มขึ้นของคุณ
ค่อยๆ เพิ่มทราฟฟิกเมื่อเปลี่ยนโมเดล ตัวอย่างเช่น หากแอปพลิเคชันของคุณกำลังเปลี่ยนจาก snapshot ก่อนหน้าไปเป็น snapshot ใหม่ ให้ใช้ feature flag เพื่อทยอยย้ายทราฟฟิกตลอดช่วงไม่กี่ชั่วโมง แทนที่จะย้ายทั้งหมดในครั้งเดียว
หลีกเลี่ยงการรันงานประมวลผลข้อมูลขนาดใหญ่หรืองานอะซิงโครนัสบน Priority processing งานเหล่านี้อาจทำให้ทราฟฟิกเพิ่มขึ้นอย่างรวดเร็วมาก และมักไม่จำเป็นต้องใช้ประสิทธิภาพที่ดีขึ้นของ Priority processing
หากคุณพบขีดจำกัดอัตราการเพิ่มขึ้นเป็นประจำ ให้พิจารณาซื้อโควตา Scale tier แทน
ขีดจำกัดอัตราการเพิ่มขึ้นใช้ร่วมกันระหว่างโปรเจ็กต์หรือองค์กรของฉันหรือไม่?
ใช่ ทราฟฟิกทั้งหมดของคุณมีส่วนร่วมในขีดจำกัดอัตราการเพิ่มขึ้นเดียวกัน
นโยบาย
จะเกิดอะไรขึ้นหาก Priority processing ไม่เป็นไปตามเป้าหมายด้าน latency?
โปรดติดต่อ AD ของคุณหากมีคำถามหรือข้อกังวลใดๆ SLA ของ Priority processing จะได้รับการปฏิบัติเช่นเดียวกับ SLA ของ Scale Tier โดยจะมีการมอบ service credits หากเราไม่สามารถปฏิบัติตาม SLA เหล่านั้นสำหรับลูกค้าที่อยู่ภายใต้ข้อตกลง Enterprise ภายในช่วงเวลาที่กำหนด
Priority processing ใช้งานร่วมกับถิ่นที่อยู่ของข้อมูลได้หรือไม่?
ได้
Priority processing ใช้งานร่วมกับ ZDR และ BAA ได้หรือไม่?
ได้
