OpenAI
Trang này được dịch bằng máy học. Xem bài viết gốc bằng tiếng Anh.

ChatGPT và các mô hình nền tảng của chúng tôi được phát triển như thế nào

Tìm hiểu thêm về cách chúng tôi phát triển các mô hình và ứng dụng chúng trong các sản phẩm như ChatGPT

Đã cập nhật: 2 days ago
Lưu ý
: Việc lưu giữ dữ liệu đối với một số dịch vụ có thể bị ảnh hưởng bởi các diễn biến pháp lý gần đây – vui lòng xem

bài đăng trên blog
của chúng tôi để biết thêm chi tiết.

Các mô hình nền tảng của OpenAI, bao gồm cả các mô hình vận hành ChatGPT, được phát triển bằng ba nguồn thông tin chính: (1) thông tin công khai trên Internet, (2) thông tin mà chúng tôi hợp tác với bên thứ ba để truy cập, và (3) thông tin do người dùng, người huấn luyện là con người và nhà nghiên cứu của chúng tôi cung cấp hoặc tạo ra.

Bài viết này cung cấp thông tin tổng quan về thông tin công khai mà chúng tôi sử dụng để hỗ trợ phát triển các mô hình này, cũng như cách chúng tôi thu thập và sử dụng thông tin đó tuân thủ luật về quyền riêng tư. Để hiểu cách chúng tôi thu thập và sử dụng thông tin từ người dùng dịch vụ của mình, bao gồm cả cách từ chối cho phép sử dụng các cuộc trò chuyện ChatGPT để hỗ trợ huấn luyện mô hình của chúng tôi, vui lòng xem Chính sách quyền riêng tưbài viết này trong trung tâm trợ giúp.

ChatGPT là gì và hoạt động như thế nào?

ChatGPT là một dịch vụ dựa trên trí tuệ nhân tạo mà bạn có thể truy cập qua Internet. Bạn có thể dùng ChatGPT cho nhiều tác vụ, bao gồm sắp xếp và tóm tắt thông tin, hỗ trợ dịch thuật, phân tích hoặc tạo hình ảnh, khơi gợi khả năng sáng tạo và ý tưởng, cùng các hoạt động hằng ngày khác. ChatGPT được thiết kế để hiểu và phản hồi các câu hỏi cũng như hướng dẫn của người dùng bằng cách học các mẫu từ lượng lớn thông tin, bao gồm văn bản, hình ảnh, âm thanh và video. Trong quá trình huấn luyện, mô hình phân tích các mối quan hệ trong dữ liệu này—chẳng hạn như cách các từ thường xuất hiện cùng nhau trong ngữ cảnh—và dùng hiểu biết đó để dự đoán từ có khả năng xuất hiện tiếp theo nhất khi tạo phản hồi, từng từ một. Tương tự, các mô hình tạo ra các dạng nội dung khác, như hình ảnh, học các mẫu về cách các pixel liên hệ với nhau và với chú thích liên quan trong dữ liệu huấn luyện.

Ví dụ, trong quá trình học của mô hình (được gọi là “huấn luyện”), mô hình có thể được giao nhiệm vụ hoàn thành một câu như: “Thay vì rẽ trái, cô ấy đã rẽ ___.” Ở giai đoạn đầu của quá trình huấn luyện, các phản hồi của mô hình phần lớn là ngẫu nhiên. Tuy nhiên, khi mô hình xử lý và học từ một khối lượng văn bản lớn, mô hình sẽ nhận biết mẫu tốt hơn và dự đoán từ tiếp theo có khả năng nhất chính xác hơn. Quá trình này được lặp lại trên hàng triệu câu để tinh chỉnh hiểu biết của mô hình và cải thiện độ chính xác.

Vì có nhiều cách hợp lý để hoàn thành một câu—chẳng hạn như “Thay vì rẽ trái, cô ấy rẽ sang phải,” “vòng lại” hoặc “quay lại”—nên cách mô hình phản hồi vốn có một yếu tố ngẫu nhiên. Do đó, cùng một câu hỏi có thể tạo ra các câu trả lời khác nhau trong các lần truy vấn khác nhau.

Các mô hình học máy bao gồm những tập hợp số lớn, được gọi là “trọng số” hoặc “tham số”, cùng với mã diễn giải và sử dụng các số đó. Các mô hình này không lưu trữ hoặc giữ lại bản sao của dữ liệu mà chúng được huấn luyện trên đó. Thay vào đó, khi một mô hình học, các giá trị tham số của mô hình được điều chỉnh nhẹ để phản ánh những mẫu mà mô hình đã xác định. Trong ví dụ trước, mô hình đã cải thiện từ việc dự đoán các từ ngẫu nhiên sang đưa ra dự đoán chính xác hơn—không phải bằng cách lưu trữ các câu huấn luyện, mà bằng cách cập nhật các tham số nội bộ của mình. Mô hình không giữ lại bản sao của các câu, hình ảnh hoặc âm thanh mà mô hình xử lý trong quá trình huấn luyện. ChatGPT không “sao chép và dán” từ dữ liệu huấn luyện của mình—tương tự như cách một giáo viên, sau khi nghiên cứu sâu rộng, có thể giải thích các khái niệm bằng cách hiểu mối quan hệ giữa các ý tưởng mà không ghi nhớ hoặc tái tạo nguyên văn tài liệu gốc. Khi tạo phản hồi cho một yêu cầu của người dùng, mô hình sử dụng các trọng số đã học này để dự đoán và tạo nội dung mới.

Loại thông tin công khai nào được dùng để huấn luyện ChatGPT?

Đối với nội dung Internet công khai, chúng tôi chỉ sử dụng thông tin có thể truy cập tự do và công khai trên Internet. Chúng tôi không cố ý thu thập dữ liệu từ các nguồn được biết là nằm sau tường phí hoặc từ dark web. Ngoài ra, chúng tôi áp dụng bộ lọc để loại bỏ tài liệu mà chúng tôi không muốn mô hình của mình học từ đó, chẳng hạn như ngôn từ thù ghét, nội dung người lớn, các trang tổng hợp thông tin cá nhân và thư rác. Phần thông tin còn lại sau đó được dùng để huấn luyện các mô hình của chúng tôi.

Thông tin cá nhân có được dùng để huấn luyện ChatGPT không?

Một phần đáng kể nội dung trực tuyến liên quan đến thông tin về con người, vì vậy dữ liệu huấn luyện của chúng tôi có thể vô tình bao gồm thông tin cá nhân. Tuy nhiên, chúng tôi không cố ý thu thập thông tin cá nhân nhằm mục đích huấn luyện các mô hình của mình.

Chúng tôi sử dụng dữ liệu huấn luyện để phát triển năng lực của mô hình—chẳng hạn như dự đoán, suy luận và giải quyết vấn đề—chứ không phải để xây dựng hồ sơ người dùng, liên hệ với cá nhân, hoặc phục vụ các nỗ lực quảng cáo hay tiếp thị của chúng tôi.

Trong một số trường hợp, các mô hình có thể học từ thông tin cá nhân để hiểu cách các yếu tố như tên và địa chỉ hoạt động trong ngôn ngữ, hoặc để nhận biết nhân vật công chúng và các thực thể nổi tiếng. Điều này giúp mô hình tạo ra các phản hồi chính xác hơn và phù hợp hơn với ngữ cảnh.

Chúng tôi chủ động thực hiện các bước để hạn chế việc xử lý thông tin cá nhân trong quá trình huấn luyện. Ví dụ, chúng tôi loại trừ các nguồn tổng hợp lượng lớn dữ liệu cá nhân, và huấn luyện các mô hình của mình để tránh phản hồi các yêu cầu về thông tin riêng tư hoặc nhạy cảm của cá nhân.

Việc phát triển ChatGPT tuân thủ luật về quyền riêng tư như thế nào?

Chúng tôi sử dụng thông tin huấn luyện một cách hợp pháp. Các mô hình nền tảng của chúng tôi hỗ trợ nhiều ứng dụng hữu ích—từ sáng tạo nội dung và hỗ trợ khách hàng đến phát triển phần mềm, giáo dục cá nhân hóa và nghiên cứu khoa học. Những năng lực này phụ thuộc vào dữ liệu huấn luyện quy mô lớn. Thông tin được dùng để huấn luyện các mô hình của chúng tôi là thông tin công khai và không nhằm gây hại cho cá nhân. Chúng tôi dựa trên lợi ích hợp pháp theo các luật về quyền riêng tư như GDPR để thu thập và sử dụng thông tin cá nhân có trong thông tin huấn luyện, như được giải thích chi tiết hơn trong Chính sách quyền riêng tư của chúng tôi. Chúng tôi đã hoàn tất đánh giá tác động bảo vệ dữ liệu để giúp đảm bảo rằng chúng tôi thu thập và sử dụng thông tin này một cách hợp pháp và có trách nhiệm.

Chúng tôi phản hồi các yêu cầu phản đối và các quyền tương tự. Do học ngôn ngữ, phản hồi của ChatGPT đôi khi có thể bao gồm thông tin cá nhân về những cá nhân có thông tin cá nhân xuất hiện nhiều lần trên Internet công khai (ví dụ: nhân vật công chúng). Các cá nhân ở một số khu vực tài phán nhất định có thể phản đối việc mô hình của chúng tôi xử lý thông tin cá nhân của họ hoặc gửi các yêu cầu khác về quyền của chủ thể dữ liệu thông qua Cổng thông tin về quyền riêng tư của chúng tôi. Bạn cũng có thể thực hiện các quyền này bằng cách liên hệ với dsar@openai.com.

Xin lưu ý rằng, theo luật về quyền riêng tư, một số quyền có thể không phải là tuyệt đối. Chúng tôi có thể từ chối một yêu cầu nếu có lý do hợp pháp để làm như vậy. Tuy nhiên, chúng tôi nỗ lực ưu tiên bảo vệ thông tin cá nhân và tuân thủ tất cả các luật hiện hành về quyền riêng tư. Nếu bạn cho rằng chúng tôi chưa giải quyết thỏa đáng một vấn đề, bạn có quyền gửi khiếu nại đến cơ quan giám sát địa phương của mình.

Để biết thêm thông tin về các hoạt động của OpenAI liên quan đến thông tin cá nhân mà chúng tôi thu thập từ bạn hoặc về bạn khi bạn sử dụng trang web, ứng dụng và dịch vụ của chúng tôi, vui lòng xem Chính sách quyền riêng tư của chúng tôi.

Bài viết này có hữu ích không?