OpenAI
Trang này được dịch bằng máy học. Xem bài viết gốc bằng tiếng Anh.

Mô hình open-weight của OpenAI (gpt-oss)

Tìm hiểu về mô hình open-weight của OpenAI (gpt-oss) và nơi nhận hỗ trợ

Đã cập nhật: 2 days ago

Lưu ý: Bài viết này cung cấp phần tổng quan cấp cao. Thông tin về thiết lập kỹ thuật có trên trang web gpt-oss, GitHub, Hugging FaceOpenAI Cookbooks.

Tổng quan

Giới thiệu hai mô hình suy luận open-weight: gpt‑oss‑120b và gpt‑oss‑20b. Chúng chạy trên hạ tầng do bạn kiểm soát, hoặc thông qua các nhà cung cấp dịch vụ lưu trữ.

Lưu ý: Các mô hình này không được phục vụ qua OpenAI API và không khả dụng trong ChatGPT.

Vì sao dùng open-weight

  • Lựa chọn và kiểm soát: Chạy mô hình tại chỗ hoặc trên đám mây riêng của bạn, duy trì nơi lưu trú dữ liệu và điều chỉnh hiệu năng theo nhu cầu.

  • Tùy chỉnh: Tinh chỉnh hoặc điều chỉnh mô hình bằng bộ công cụ mở mà bạn ưu tiên.

Tính sẵn có và cấp phép

  • Giấy phép: Apache 2.0 cho phép sử dụng, chỉnh sửa và phân phối lại rộng rãi, bao gồm cả mục đích thương mại (theo chính sách sử dụng gpt-oss của chúng tôi).

  • Phục vụ: Không khả dụng qua OpenAI API, nên giá API và giới hạn tốc độ không áp dụng.

  • Tương thích: Có thể chạy với các ngăn xếp suy luận mở phổ biến như vLLM, Ollama, llama.cpp, và trên môi trường GPU đám mây hoặc tự quản lý.

Bắt đầu

Để lấy trọng số mô hình và các tài nguyên hỗ trợ, bạn có thể:

  • Truy cập trang web gpt-oss để xem tổng quan và các liên kết trực tiếp.

  • Tải trọng số từ bộ sưu tập Hugging Face — một trung tâm cộng đồng nơi bạn có thể tìm thấy cả hai mô hình, xem ví dụ sử dụng và tùy chọn chạy suy luận trực tiếp qua dịch vụ của Hugging Face.

  • Truy cập repo GitHub của chúng tôi để lấy mã suy luận tham chiếu.

  • Sử dụng hướng dẫn trong OpenAI Cookbook để thiết lập với các runtime được hỗ trợ như Ollama, vLLM và Transformers. Cookbook cũng bao gồm hướng dẫn từng bước để chạy cục bộ, dùng các runtime phổ biến và — khi được hỗ trợ — tinh chỉnh các mô hình gpt‑oss.

gpt‑oss‑safeguard (bản xem trước nghiên cứu)

gpt‑oss‑safeguard là một cặp mô hình suy luận an toàn open-weight được xây dựng trên gpt‑oss. Chúng được thiết kế cho phân loại an toàn dựa trên chính sách và các tác vụ trust & safety liên quan chạy trên hạ tầng do bạn kiểm soát. Giống các mô hình gpt‑oss khác, các trọng số này không được phục vụ qua OpenAI API hoặc ChatGPT.

  • Mô hình chỉ văn bản với các lược đồ đầu ra có cấu trúc tham chiếu (ví dụ: phán quyết chính sách, lý do).

  • Tự mang chính sách của bạn: mô hình diễn giải chính sách bạn viết để có thể khái quát trên nhiều sản phẩm với công sức kỹ thuật tối thiểu.

  • Quyết định có suy luận: vết suy luận tùy chọn để hỗ trợ gỡ lỗi và kiểm toán (dành cho nhà phát triển và người làm an toàn, không phải để hiển thị cho người dùng cuối).

  • Mức độ suy luận có thể cấu hình: chọn thấp / trung bình / cao để cân bằng độ trễ với độ sâu.

  • Giấy phép: Apache 2.0 (xem Tính sẵn có và cấp phép bên dưới).

gpt‑oss‑safeguard phù hợp với lọc đầu vào/đầu ra cho LLM, gắn nhãn nội dung trực tuyến và các quy trình gắn nhãn hoặc rà soát hàng loạt ngoại tuyến. Với các ứng dụng tổng quát (chat, tác nhân, v.v.), chúng tôi khuyến nghị các mô hình gpt‑oss cốt lõi.

Bạn có thể điều chỉnh lược đồ theo nhu cầu. Vui lòng tham khảo OpenAI Cookbook để xem hướng dẫn về câu lệnh và ví dụ.

Biến thể mô hình & kích cỡ

Mô hìnhMục đích sử dụngGhi chú
gpt‑oss‑safeguard‑120bTriển khai thực tế, suy luận an toàn dung lượng cao117 tỷ tham số (≈5,1 tỷ hoạt động). Được thiết kế để vừa trên một GPU 80 GB (ví dụ: NVIDIA H100; cũng chạy trên GPU bộ nhớ lớn hơn như AMD MI300X).
gpt‑oss‑safeguard‑20bMôi trường độ trễ thấp / hạn chế tài nguyên21 tỷ tham số (≈3,6 tỷ hoạt động).

Cả hai mô hình đều được tinh chỉnh từ gpt‑oss mà không thay đổi kiến trúc. Chúng dùng cùng mẫu chat như gpt‑oss; bạn có thể giữ nguyên thiết lập hiện có. Một mẫu câu lệnh được khuyến nghị là đặt chính sách của bạn trong tin nhắn developer và nội dung cần đánh giá trong tin nhắn user.

Hỗ trợ và cộng đồng

Các triển khai open-weight do bạn tự quản lý và tự vận hành. Đây là nơi để nhận hỗ trợ:

  • Câu hỏi, thảo luận, mẹo: Dùng trang mô hình Hugging Face để tương tác với cộng đồng.

  • Lỗi có thể tái hiện trong mã suy luận tham chiếu của OpenAI: Mở một issue trên repo GitHub gpt-oss.

  • Sự cố với runtime bên thứ ba (ví dụ: vLLM, Ollama, llama.cpp): Sử dụng trình theo dõi issue, diễn đàn hoặc quy trình hỗ trợ của dự án tương ứng.

OpenAI không cung cấp hỗ trợ, triển khai thực hành hoặc hỗ trợ gỡ lỗi cho bất kỳ thiết lập, cấu hình, môi trường hay ứng dụng open-weight nào tự lưu trữ hoặc do bên thứ ba lưu trữ.

Chúng tôi sẽ tiếp tục lặp lại cùng cộng đồng để cải thiện công cụ an toàn mở, bao gồm thông qua ROOST Model Community (RMC). RMC quy tụ các chuyên gia và nhà nghiên cứu an toàn để chia sẻ thực tiễn tốt nhất khi triển khai mô hình AI mã nguồn mở vào quy trình an toàn, bao gồm kết quả đánh giá và phản hồi về mô hình. Truy cập repo GitHub của RMC để tìm hiểu thêm về quan hệ hợp tác này và cách tham gia.

Hỗ trợ và cộng đồng

Các triển khai open-weight do bạn tự quản lý và tự vận hành. Đây là nơi để nhận hỗ trợ:

  • Câu hỏi, thảo luận, mẹo: Dùng trang mô hình Hugging Face để tương tác với cộng đồng.

  • Lỗi có thể tái hiện trong mã suy luận tham chiếu của OpenAI: Mở một issue trên repo GitHub gpt-oss.

  • Sự cố với runtime bên thứ ba (ví dụ: vLLM, Ollama, llama.cpp): Sử dụng trình theo dõi issue, diễn đàn hoặc quy trình hỗ trợ của dự án tương ứng.

OpenAI không cung cấp hỗ trợ, triển khai thực hành hoặc hỗ trợ gỡ lỗi cho bất kỳ thiết lập, cấu hình, môi trường hay ứng dụng open-weight nào tự lưu trữ hoặc do bên thứ ba lưu trữ.

Quyền riêng tư và an toàn

Quyền riêng tư và dữ liệu

Những mô hình này được thiết kế để chạy trên hạ tầng do bạn kiểm soát (tại chỗ hoặc trên đám mây hay đối tác lưu trữ của bạn). OpenAI không nhận hoặc xử lý dữ liệu bạn gửi đến các mô hình tự lưu trữ này trừ khi bạn chia sẻ rõ ràng với OpenAI hoặc sử dụng một trong các đối tác lưu trữ được chúng tôi quản lý.

An toàn

Những mô hình này đã trải qua quá trình huấn luyện và kiểm thử an toàn sâu rộng. Để biết thêm chi tiết, xem thẻ mô hìnhbáo cáo kỹ thuật của chúng tôi.

Báo cáo vi phạm nội dung

Nếu bạn cho rằng nội dung được tạo bằng các mô hình gpt‑oss vi phạm chính sách của chúng tôi, bạn có thể báo cáo qua biểu mẫu Báo cáo nội dung. Vui lòng cung cấp càng nhiều chi tiết càng tốt để giúp nhóm của chúng tôi xem xét nội dung gửi của bạn.

Câu hỏi thường gặp

Các mô hình này có miễn phí không?

Trọng số mô hình gpt-oss được tải xuống và sử dụng miễn phí theo giấy phép Apache 2.0 và chính sách sử dụng gpt-oss. Tuy nhiên, bạn chịu trách nhiệm cho mọi chi phí liên quan đến việc chạy chúng — như chi phí tính toán, lưu trữ hoặc phí lưu trữ của bên thứ ba. Mức giá đó sẽ phụ thuộc vào hạ tầng hoặc nhà cung cấp bạn chọn.

Các mô hình này có phải là “mã nguồn mở” không?

Chúng tôi dùng thuật ngữ mô hình mở hoặc open-weight để chỉ rằng các trọng số đã huấn luyện được cung cấp công khai theo giấy phép Apache 2.0 linh hoạt và chính sách sử dụng gpt-oss. Điều này nghĩa là bạn có thể tải mô hình xuống, chạy trên hạ tầng của riêng mình hoặc với các framework lưu trữ được hỗ trợ, và tùy chỉnh hoặc tinh chỉnh chúng.

Mô hình mở mang lại cho nhà phát triển và tổ chức khả năng kiểm soát và tính linh hoạt cao hơn. Bạn có thể chọn nơi lưu trữ, điều chỉnh mô hình cho các trường hợp sử dụng cụ thể và hưởng lợi từ giấy phép cho phép sử dụng, chỉnh sửa và phân phối lại rộng rãi. Dù các trọng số đã huấn luyện là mở, một số hạ tầng hoặc công cụ xung quanh vẫn có thể thuộc sở hữu độc quyền của nhà cung cấp tương ứng.

Tôi có thể truy cập các mô hình này qua OpenAI API hoặc ChatGPT không?

Không. Các mô hình này không được phục vụ trong OpenAI API và không xuất hiện trong ChatGPT.

Tôi có thể tinh chỉnh các mô hình không?

Có. Bạn có thể tinh chỉnh bằng các công cụ mã nguồn mở và hạ tầng bạn ưu tiên. Chúng tôi không cung cấp tinh chỉnh qua OpenAI API cho các mô hình này.

Mô hình open-weight có rẻ hơn dùng API không?

Chi phí thay đổi tùy theo hạ tầng, khối lượng công việc và cách tiếp cận vận hành. Tự lưu trữ có thể rẻ hơn trong một số trường hợp, trong khi Nền tảng API của chúng tôi có thể hiệu quả hơn khi tính đến chi phí lưu trữ, bảo trì và nâng cấp.

Các mô hình này hỗ trợ những tính năng nào?

Các mô hình này hiện là mô hình suy luận chỉ văn bản. Các runtime phổ biến hỗ trợ streaming, gọi hàm và đầu ra có cấu trúc. Hãy kiểm tra tài liệu của runtime để biết khả năng chính xác.

Điều này khác ModAPI như thế nào?

Đây là một mô hình suy luận có năng lực rất cao, cho phép bạn tự mang chính sách của mình. Nó có thể hoạt động song song với ModAPI nhưng có thể không thay thế được cho các trường hợp sử dụng độ trễ thấp.

Bài viết này có hữu ích không?