深入了解我們如何開發模型並將其應用於 ChatGPT 等產品的相關資訊

OpenAI 的基礎模型 (包括支援 ChatGPT 的模型)，是使用三個主要資訊來源開發：(1) 網路上公開可得的資訊，(2) 我們與第三方合作取得的資訊，以及 (3) 我們的使用者、真人訓練師和研究員提供或產生的資訊。

開發像 ChatGPT 所使用的基礎模型涉及多個階段，包括準備訓練資料、預訓練與後訓練，以及部署後持續進行評估與改進。在這些階段，可能會基於各種目的使用不同類型的資訊，包括提升模型效能、可靠性與安全性。

本文概述了我們用來協助開發這些模型的資訊、我們如何在遵循隱私法規的情況下收集和使用這些資訊，以及我們在整個訓練過程中採用的防護措施。若要瞭解我們如何收集及使用服務使用者的資訊，包括如何選擇不讓 ChatGPT 對話用於協助改善我們的模型，請參閱我們的《隱私權政策》和這篇說明中心文章。

何謂 ChatGPT，它是如何運作的？

ChatGPT 是一項以人工智慧為基礎的服務，可以透過網際網路或應用程式存取。可以使用 ChatGPT 完成各式各樣的任務，包括整理與總結資訊、協助翻譯、支援程式設計、研究與分析、跨工具完成多步驟任務、分析或生成圖像、激發創意與靈感，以及處理其他日常活動。ChatGPT 的設計目的是透過從大量資訊中學習模式，包括文字、圖片、音訊和影片，來理解並回應使用者的問題和指示。

在訓練期間，模型會分析這些資料中的關係，例如單詞通常如何在上下文中一起出現，並運用這種理解，在生成回應時逐一預測最可能出現的下一個單詞。文字可能會被轉換成較小的單位，有時稱為「Token」，這些單位可能代表完整單字、單字的一部分或標點符號。Token 是模型處理文字的基本組成單位。同樣地，會產生其他形式內容（例如圖像）的模型，會學習訓練資料中像素彼此之間，以及與相關說明文字之間的關係模式。

例如，在模型的學習過程（稱為「訓練」）中，模型可能會被指派任務，要完成一個句子，例如：「而不是向左轉，她向___轉。」在訓練初期，模型的回應大多是隨機的。然而，隨著模型處理大量文字並從中學習，它會變得更擅長識別模式及預測最有可能出現的下一個單詞。這個過程會在數百萬個句子中反覆進行，以提升其理解能力並提高準確性。

因為有多種合理的方法來完成一個句子，例如「她沒有向左轉，而是向右轉」、「轉身調頭」或「向後轉」，因此模型的反應中存在固有的隨機性。因此，相同的問題在不同的查詢中可能會得到不同的答案。

機器學習模型由大量數字組成 (這些數字稱為「權重」或「參數」) 以及解釋和使用這些數字的程式碼。這些模型不會儲存或保留它們訓練的資料副本。反之，隨著模型的學習，其參數值會稍作調整，以反映其識別出的模式。在較早的範例中，模型從預測隨機字詞提升為做出更準確的預測，這不是透過儲存訓練句子來實現的，而是透過更新其內部參數。模型在訓練過程中不會保留其處理的句子、圖像或音訊的副本。ChatGPT 並不會從其訓練資料中「複製貼上」—這類似於老師在經過廣泛學習後，能夠透過理解概念之間的關係來解釋概念，而無需記憶或逐字逐句地複述原始材料。當產生使用者要求的回應時，模型會利用這些學到的權重來預測並建立新的內容。

哪種類型的資訊會用來教導 ChatGPT？

針對公開可得的網路內容，我們僅使用網路上可自由且公開存取的資訊。這可能包括公開可取得的網頁、公開論壇、公開部落格、公開貼文，以及其他公開可取得的線上內容。例如，如果你參與公開提供的線上討論論壇，或發布公開部落格文章或其他貼文，我們可能會將該公開可存取的內容用於模型訓練目的。然而，我們會採取措施，減少在訓練流程中對個人資訊的處理。在收集公開可取得的網際網路內容時，我們不會刻意從已知設有付費牆的來源或暗網收集資料。此外，我們會套用篩選條件，移除不希望模型學習的內容，例如仇恨言論、成人內容、彙整個人資訊的網站以及垃圾資訊。其餘資訊則會用於訓練我們的模型。

網站擁有者可以使用標準網路控制機制（例如透過 robots.txt 禁止 GPTBot），管理其網站上公開可取得的內容是否可被存取以用於訓練。GPTBot 可能會爬取公開可取得的內容，以協助訓練我們的模型。我們提供指引，協助網站擁有者管理其網站和內容與我們的 AI 系統互動的方式。

我們也會使用來自第三方合作夥伴的資訊，協助訓練及改善我們的模型。這可能包括我們透過與第三方簽訂的協議所存取之資料集中的資訊，以及在我們的政策和協議允許的情況下，由人類訓練員和研究人員提供或產生的資訊。這有助於提升我們模型的品質、安全性和效能。這些來源可能包括文字、影像、音訊、影片或其他資料類型，具體取決於資料集。我們也在部分訓練流程中越來越多地使用合成資料。例如，我們可能會使用資訊和我們的模型來產生合成提示詞、多語言範例或其他訓練材料。合成資料可協助提升模型效能，包括補充資料稀疏或不平衡領域中的訓練資料，也可能支援在模型開發中強化隱私保護的方法。

是否會用個人資訊來教導 ChatGPT？

由於相當一部分線上內容涉及人們的相關資訊，因此我們的訓練資料可能會無意間包含個人資訊。不過，我們會採取措施，減少訓練流程中對個人資訊的處理。

我們使用訓練資料來發展模型的能力，例如預測、推理和解決問題，而不是用來建立個人檔案、聯絡他們，或為他們個人化廣告。

在某些情況下，模型可能會從個人資訊中學習，藉此了解姓名和地址等元素在語言中的作用，或識別公眾人物和知名實體。這有助於模型產生更準確且符合上下文的回應。

訓練期間如何保護個人資料？

我們會積極採取措施，限制訓練期間對個人資訊的處理。舉例來說，我們會排除已知會彙整大量個人資料的來源、在訓練過程中套用篩選機制以減少個人資訊，並採取措施來識別及移除重複內容，以降低重現訓練資料的風險。此外，我們也會訓練我們的模型，避免回應有關個人隱私或敏感資訊的請求。

我們保留資訊的時間

我們僅會在為達成本文及我們的隱私權政策中所述目的而合理必要的期間內，保留訓練資料中的資訊，包括用於開發及改善我們的模型，以及相關科學研究目的。保留須定期審查，以確保其持續必要性，且會依資訊類型及其使用方式而有所不同。在決定保留期限時，我們會考量多項因素，例如我們處理該資訊的目的、該資訊的數量、性質與敏感程度、未經授權使用或揭露可能造成的損害風險，以及我們須遵守的任何法律義務。

ChatGPT 在開發期間如何遵守隱私權保護法？

我們依法使用訓練資訊。我們的基礎模型支援各式各樣有益的應用，包括無障礙工具、客戶支援、軟體開發、個人化教育和科學研究。這些能力仰賴大規模訓練資料，包括公開可取得的資訊，以及來自第三方合作夥伴的資訊。我們在整個訓練過程中採取保護措施，包括專為減少訓練過程中對個人資訊的處理並降低風險而設計的步驟，如本文所述。根據 GDPR 等隱私權法律，我們基於合法權益蒐集及使用訓練資訊中包含的個人資訊，包括為了訓練及改善我們的模型，以服務使用者與更廣泛的社會，並符合我們確保通用人工智慧造福所有人的使命；詳情請參閱我們的《隱私權政策》。我們已完成資料保護影響評估，以協助確保我們以合法且負責任的方式收集和使用此資訊。

資訊可能會被分享或移轉的情況

我們不會「出售」個人資訊，且僅會在《隱私權政策》所述的有限情況下，揭露訓練資料中的個人資訊。例如，我們可能會與支援我們模型開發、測試及改進的關係企業、供應商及服務提供者分享資訊。基於善意相信此類行動係為遵守法律義務，或為保護我們以及我們的使用者、員工或公眾的權利、安全與保障所必要時，我們也可能會揭露資訊，如我們的《隱私權政策》中所述。

由於我們的基礎架構遍布全球，訓練資料中的個人資料可能會在歐洲經濟區、瑞士或英國以外的國家／地區（包括美國）受到處理。若發生此情況，我們會採取適當的保障措施，例如適足性認定或標準契約條款，如我們的隱私權政策所述。

你的權利及如何行使

我們會處理「反對權」請求及類似權利請求。由於語言學習的特性，ChatGPT 的回應有時可能會包含某些人 (例如公眾人物) 的個人資訊；這些資訊曾多次出現在公開網際網路上。特定司法管轄區的個人可以反對我們的模型處理其個人資訊，或透過我們的隱私權入口網站提出其他資料主體權利請求。你也可以聯絡 Privacy@openai.com 來行使這些權利。

為協助我們評估並回應您的請求，請提供足夠的資訊，讓我們了解您的請求涉及哪些個人資訊，例如您的姓名、相關 URL、模型輸出的具體範例，或其他有助於識別問題的詳細資料。在某些情況下，我們可能會要求您驗證身分，或確認相關資訊與您有關，才能採取行動。如需進一步瞭解如何提交這類請求，包括最佳做法以及請求審查方式，請參閱我們關於從 ChatGPT 移除個人資料的說明中心文章。我們會依照適用的隱私權法律審查請求，並在適用法律規定的期限內回覆。

請注意，根據隱私權法規，部分權利可能並非絕對的。例如，在我們無法驗證相關資訊、請求與 OpenAI 所處理的個人資訊無關、適用豁免情形，或我們有其他合法理由的情況下，我們可能無法滿足請求。我們會針對個別案件進行評估，且可能需要在隱私權與其他重要考量因素（例如言論自由及公眾利益）之間取得平衡。

然而，我們致力於將個人資訊保護列為優先事項，並遵守所有適用的隱私權法規。如果您認為我們未妥善處理某項問題，您有權向當地監管機關提出申訴。

如需進一步了解 OpenAI 在您使用我們的網站、應用程式和服務時，針對我們向您收集或與您相關的個人資訊所採取的做法，請參閱我們的隱私權政策。

ChatGPT 和我們基礎模型的具體開發方式

何謂 ChatGPT，它是如何運作的？

哪種類型的資訊會用來教導 ChatGPT？

是否會用個人資訊來教導 ChatGPT？

ChatGPT 在開發期間如何遵守隱私權保護法？

這篇文章有幫助嗎？