OpenAI 的基礎模型，包括支援 ChatGPT 運作的模型，均使用三項主要資訊來源開發：(1) 互聯網上公開可得的資訊；(2) 我們與第三方合作取得存取權限的資訊；以及 (3) 由我們的用戶、人工訓練員和研究人員提供或產生的資訊。

開發 ChatGPT 所使用的這類基礎模型涉及多個階段，包括準備訓練資料、預訓練和後訓練，以及部署後持續評估和改進。在這些階段，不同類型的資訊可能會用於各種目的，包括提升模型效能、可靠性和安全性。

本文概述我們用於協助開發這些模型的資訊、我們如何在遵守私隱法律的情況下收集和使用該等資訊，以及我們在整個訓練過程中採取的保障措施。如欲了解我們如何收集和使用服務用戶的資訊，包括如何選擇不讓 ChatGPT 對話用於協助改進我們的模型，請參閱我們的私隱政策和這篇說明中心文章。

ChatGPT 是甚麼，以及它如何運作？

ChatGPT 是一項以人工智能為基礎的服務，你可以透過互聯網或應用程式使用。你可以使用 ChatGPT 處理各種任務，包括整理和總結資訊、協助翻譯、支援編碼、研究和分析、跨工具完成多步驟任務、分析或生成圖像、激發創意和構思，以及其他日常活動。ChatGPT 旨在透過從大量資訊（包括文字、圖像、音訊和影片）中學習模式，理解並回應用戶的問題和指示。

在訓練期間，模型會分析這些資料中的關係，例如字詞通常如何在上下文中一起出現，並在生成回應時利用這種理解逐字預測下一個最可能出現的字詞。文字可能會被轉換成較小的單位，有時稱為「Token」，可代表完整字詞、字詞的一部分或標點符號。Token 是模型處理文字的基本構成單位。同樣地，生成圖像等其他形式內容的模型，會學習訓練資料中像素彼此之間，以及像素與相關說明文字之間的模式。

例如，在模型的學習過程（稱為「訓練」）中，模型可能需要完成一句句子，例如：「她沒有向左轉，而是向 ___ 轉。」在訓練初期，它的回應大多是隨機的。然而，隨着模型處理並學習大量文字，它會更擅長識別模式，並預測下一個最可能出現的字詞。這個過程會在數以百萬計的句子中反覆進行，以完善其理解並提高準確性。

由於一句句子可以有多種合理的完成方式，例如「她沒有向左轉，而是向右轉」、「轉身」或「折返」，模型的回應方式本身就帶有一定的隨機性。因此，同一個問題在不同查詢中可能會得到不同答案。

機器學習模型由大量數值組成，稱為「權重」或「參數」，並配合用於解讀和使用這些數值的程式碼。這些模型不會儲存或保留其訓練資料的副本。相反，隨着模型學習，其參數值會作出細微調整，以反映它所識別到的模式。在前面的例子中，模型由預測隨機字詞進步至作出更準確的預測，並不是因為它儲存了訓練句子，而是因為它更新了內部參數。模型不會保留其在訓練期間處理過的句子、圖像或音訊副本。ChatGPT 並不是從訓練資料中「複製並貼上」內容；這就像一位教師經過廣泛研習後，能夠透過理解概念之間的關係來解釋概念，而不是逐字記憶或重現原始材料。當模型生成對用戶請求的回應時，會使用這些已學習的權重來預測並創作新內容。

哪些類型的資訊會用於教導 ChatGPT？

就公開可得的互聯網內容而言，我們只使用在互聯網上可自由公開存取的資訊。這可能包括公開可得的網頁、公共論壇、公開博客、公開帖文，以及其他公開可得的網上內容。例如，如果你參與公開可得的網上討論論壇，或發佈公開博客或其他公開帖文，我們可能會將該等公開可存取的內容用於模型訓練目的。不過，我們會採取措施，減少在訓練過程中處理個人資訊。在收集公開可得的互聯網內容時，我們不會有意從已知位於付費牆後方的來源或暗網收集資料。此外，我們會套用篩選器，移除我們不希望模型從中學習的材料，例如仇恨言論、成人內容、彙集個人資訊的網站和垃圾訊息。其餘資訊隨後會用於訓練我們的模型。

網站擁有人可以使用標準網絡控制項（例如 robots.txt）禁止 GPTBot，以管理其網站上公開可得的內容是否可被存取並用於訓練；GPTBot 可能會爬取公開可得的內容，以協助訓練我們的模型。我們提供指引，協助網站擁有人管理其網站和內容如何與我們的 AI 系統互動。

我們亦會使用來自第三方合作夥伴的資訊，以協助訓練和改進我們的模型。這可能包括我們透過與第三方訂立的協議所存取的資料集中的資訊，以及在我們的政策和協議允許下，由人工訓練員和研究人員提供或產生的資訊。這有助提升我們模型的品質、安全性和效能。視乎資料集而定，這些來源可能包括文字、圖像、音訊、影片或其他資料類型。

我們亦越來越多在部分訓練過程中使用合成資料。例如，我們可能會使用資訊和我們的模型來生成合成提示詞、多語言範例或其他訓練材料。合成資料可協助提升模型效能，包括在資料稀少或不均衡的領域補充訓練資料，並可能支援更能提升私隱保障的模型開發方法。

個人資訊會用於教導 ChatGPT 嗎？

網上內容有相當部分涉及關於人的資訊，因此我們的訓練資料可能會附帶包含個人資訊。不過，我們會採取措施，減少在訓練過程中處理個人資訊。

我們使用訓練資料來發展模型的能力，例如預測、推理和解難，而不是用來建立個人檔案、聯絡個人或向個人提供個人化廣告。

在某些情況下，模型可能會從個人資訊中學習，以了解姓名和地址等元素在語言中的作用，或識別公眾人物和知名實體。這有助模型生成更準確且更切合上下文的回應。

在訓練期間如何保護個人資訊？

我們會主動採取措施，限制在訓練期間處理個人資訊。例如，我們會排除已知彙集大量個人資料的來源、套用篩選以減少訓練過程中的個人資訊，並採取措施識別和移除重複內容，以降低重複訓練資料的風險。此外，我們會訓練模型避免回應索取個人私密或敏感資訊的請求。

我們保留資訊的時間

我們只會在為本文及我們的私隱政策所述目的而合理需要的期間內，保留訓練資料中的資訊，包括用於開發和改進我們的模型，以及相關科學研究目的。保留安排會定期檢視，以確保持續有其必要，並會視乎資訊類型及其使用方式而有所不同。在決定保留期限時，我們會考慮多項因素，例如我們處理該資訊的目的、資訊的數量、性質和敏感程度、未經授權使用或披露可能造成損害的風險，以及我們須遵守的任何法律義務。

ChatGPT 的開發如何遵守私隱法律？

我們依法使用訓練資訊。我們的基礎模型支援多種有益應用，包括無障礙工具、客戶支援、軟件開發、個人化教育和科學研究。這些能力有賴大規模訓練資料，包括公開可得的資訊，以及來自第三方合作夥伴的資訊。如本文所述，我們在整個訓練過程中採取保障措施，包括旨在減少在訓練過程中處理個人資訊及降低風險的步驟。我們根據 GDPR 等私隱法律下的合法權益，收集和使用訓練資訊中所包含的個人資訊，包括為用戶和更廣泛社會訓練及改進我們的模型，這符合我們確保通用人工智能造福所有人的使命；詳情請參閱我們的私隱政策。我們已完成資料保障影響評估，以協助確保我們以合法及負責任的方式收集和使用這些資訊。

資訊可能會被分享或轉移的情況

我們不會「出售」個人資訊，並且只會在我們的私隱政策所述的有限情況下，披露訓練資料中的個人資訊。例如，我們可能會與支援我們模型開發、測試和改進的關聯公司、供應商和服務提供者分享資訊。如我們真誠相信有關行動對遵守法律義務，或保護我們以及我們用戶、員工或公眾的權利、安全和保安而言屬必要，我們亦可能披露資訊；詳情見我們的私隱政策。

由於我們的基礎設施遍佈全球，訓練資料中的個人資訊可能會在歐洲經濟區、瑞士或英國以外的國家/地區（包括美國）處理。在這些情況下，我們會採取適當保障措施，例如充分性決定或標準合約條款；詳情見我們的私隱政策。

你的權利及如何行使這些權利

我們會回應反對請求及類似的權利請求。由於學習語言的結果，ChatGPT 的回應有時可能會包含關於個人的個人資訊，而這些人的個人資訊在公開互聯網上多次出現（例如公眾人物）。某些司法管轄區的個人可以透過我們的私隱入口網站，反對我們的模型處理其個人資訊，或提出其他資料當事人權利請求。你亦可以聯絡 privacy@openai.com 以行使這些權利。

為協助我們評估並回應你的請求，請提供足夠資訊，讓我們了解你的請求涉及哪些個人資訊，例如你的姓名、相關 URL、模型輸出的具體例子，或其他有助識別問題的詳情。在某些情況下，我們可能會要求你先驗證身份，或確認該資訊與你有關，然後才能採取行動。有關如何提交這些請求的更多資訊，包括最佳做法及請求的審核方式，可參閱我們關於從 ChatGPT 移除個人資料的說明中心文章。我們會按照適用的私隱法律審核請求，並在適用的法定時限內回應。

請注意，根據私隱法律，部分權利可能並非絕對。例如，如我們無法核實相關資訊、請求與 OpenAI 所處理的個人資訊無關、適用豁免情況，或我們有其他合法理由，我們可能無法履行請求。請求會按個別情況評估，並可能涉及在私隱權與其他重要考量之間作出平衡，例如表達自由和公眾利益。

不過，我們致力優先保護個人資訊，並遵守所有適用的私隱法律。如果你認為我們未有充分處理某項問題，你有權向當地監管機構提出投訴。

如欲進一步了解你使用我們的網站、應用程式和服務時，OpenAI 就我們向你收集或關於你的個人資訊所採取的做法，請參閱我們的私隱政策。

ChatGPT 及我哋嘅基礎模型係點樣開發

ChatGPT 是甚麼，以及它如何運作？

哪些類型的資訊會用於教導 ChatGPT？

個人資訊會用於教導 ChatGPT 嗎？

ChatGPT 的開發如何遵守私隱法律？

這篇文章對你有幫助嗎？