Hiện chúng tôi cung cấp xử lý ưu tiên cho khách hàng Enterprise API muốn truy cập hiệu năng nhanh hơn và ổn định hơn trên một số mô hình nhất định. Dưới đây là câu trả lời cho các câu hỏi thường gặp về cách thức hoạt động, giá, khả năng sẵn có của mô hình, giới hạn tốc độ, độ tin cậy, chính sách và điều kiện đủ.
Tìm hiểu thêm tại đây.
Quyền truy cập
Ai có thể truy cập xử lý ưu tiên?
Hiện tại, xử lý ưu tiên được cung cấp cho khách hàng Enterprise.
Xử lý ưu tiên có sẵn ở tất cả khu vực không?
Tính khả dụng của xử lý ưu tiên phụ thuộc vào các luật và quy định áp dụng tại từng khu vực pháp lý. Vui lòng liên hệ Giám đốc Tài khoản của bạn nếu có câu hỏi về tính khả dụng tại khu vực của bạn.
Giá
Làm cách nào để bắt đầu sử dụng xử lý ưu tiên?
Khách hàng có thể chuyển lưu lượng đến xử lý ưu tiên theo từng yêu cầu bằng tham số service_tier hiện có, với tùy chọn service_tier="priority".
Tính năng này tương tác với Scale Tier như thế nào?
Scale Tier sẽ vẫn tách biệt với xử lý ưu tiên. Các yêu cầu được gửi đến xử lý ưu tiên sẽ được tính phí riêng và sẽ không được tính vào các gói TPM Scale Tier bạn đã mua.
Tôi có thể tự động gửi lưu lượng tràn của Scale Tier sang xử lý ưu tiên không?
Không. Lưu lượng được gửi đến Scale Tier sẽ không tự động tràn sang xử lý ưu tiên.
Xử lý ưu tiên được tính phí như thế nào?
Các token được phục vụ bởi xử lý ưu tiên sẽ được tính phí theo từng token, với mức giá cao hơn so với mức của xử lý tiêu chuẩn.
Cam kết hằng năm của tôi có gắn với một chế độ xử lý cụ thể không?
Không. Tất cả chế độ xử lý đều được tính vào cam kết chi tiêu Enterprise hằng năm của bạn.
Tôi vẫn được giảm giá cho token đầu vào được lưu vào bộ nhớ đệm chứ?
Có! Đầu vào được lưu vào bộ nhớ đệm nhận cùng mức giảm giá 50-75% như trong xử lý tiêu chuẩn.
Làm cách nào để xem mức sử dụng và chi tiêu cho xử lý ưu tiên của tôi?
Để xem các token được xử lý bởi xử lý ưu tiên, hãy vào bảng điều khiển Mức sử dụng, chọn Chat Completions hoặc Responses, rồi Group by Service Tier. Để xem chi phí xử lý ưu tiên, hãy vào bảng điều khiển Mức sử dụng và chọn Group by Line Item.
Mô hình
Xử lý ưu tiên có sẵn cho ngữ cảnh dài, mô hình tinh chỉnh, embeddings, v.v. không?
Hiện chưa. Trong tương lai, chúng tôi sẽ đánh giá việc cung cấp xử lý ưu tiên cho các sản phẩm bổ sung ngoài những mô hình mới nhất của mình.
Các phương thức khác hoạt động với xử lý ưu tiên như thế nào?
Xử lý ưu tiên hỗ trợ các khả năng đa phương thức giống như trên Standard. Cụ thể, hình ảnh có thể được dùng làm đầu vào cho xử lý ưu tiên và được xử lý với cùng độ trễ nhanh.
Các mô hình trong tương lai có được hỗ trợ không?
Chúng tôi dự định cung cấp xử lý ưu tiên cho các mô hình GPT mới, nhưng không đảm bảo mọi mô hình đều sẽ được hỗ trợ.
Giới hạn tốc độ
Các giới hạn tốc độ là gì?
Mức tiêu thụ xử lý ưu tiên được xử lý giống như lưu lượng API tiêu chuẩn đối với giới hạn tốc độ.
Các giới hạn tốc độ tăng dần là gì?
Xử lý ưu tiên có các giới hạn tốc độ tăng dần để đảm bảo hiệu năng cao ổn định cho mọi khách hàng, đồng thời vẫn cung cấp mức giá linh hoạt theo nhu cầu. Nếu (a) hiệu năng xử lý ưu tiên bị suy giảm VÀ (b) lưu lượng của khách hàng đang tăng quá nhanh, thì trong một số trường hợp hiếm, một số yêu cầu ưu tiên có thể bị hạ xuống xử lý tiêu chuẩn.
Giới hạn tốc độ tăng dần hiện tại của xử lý ưu tiên được xác định trong tài liệu chính của chúng tôi tại đây.
Các phương pháp hay nhất để duy trì trong giới hạn tốc độ tăng dần của bạn
Tăng lưu lượng dần dần khi thay đổi mô hình. Ví dụ: nếu ứng dụng của bạn đang chuyển từ một bản snapshot trước đó sang bản mới, hãy dùng cờ tính năng để chuyển lưu lượng trong vài giờ thay vì dồn tất cả cùng lúc.
Tránh chạy các tác vụ xử lý dữ liệu lớn hoặc tác vụ không đồng bộ trên xử lý ưu tiên. Những tác vụ này có thể làm tăng lưu lượng rất nhanh và thường không cần hiệu năng được cải thiện của xử lý ưu tiên.
Nếu bạn thường xuyên gặp giới hạn tốc độ tăng dần, hãy cân nhắc mua hạn ngạch Scale tier thay thế.
Các giới hạn tốc độ tăng dần có được chia sẻ giữa các dự án hoặc tổ chức của tôi không?
Có, toàn bộ lưu lượng của bạn đều góp phần vào cùng một giới hạn tốc độ tăng dần.
Chính sách
Điều gì xảy ra nếu xử lý ưu tiên không đạt mục tiêu về độ trễ?
Vui lòng liên hệ với AD của bạn nếu có bất kỳ câu hỏi hoặc quan ngại nào. SLA của xử lý ưu tiên sẽ được áp dụng giống như SLA của Scale Tier; tín dụng dịch vụ sẽ được cung cấp nếu chúng tôi không đáp ứng các SLA đó cho khách hàng theo thỏa thuận Enterprise trong một khoảng thời gian nhất định.
Xử lý ưu tiên có tương thích với nơi lưu trú dữ liệu không?
Có.
Xử lý ưu tiên có tương thích với ZDR và BAA không?
Có.
