OpenAI

ChatGPT 和我們基礎模型的具體開發方式

深入了解我們如何開發模型並將其應用於 ChatGPT 等產品的相關資訊

更新日期:24 hours ago

注意:由於近期法律發展,部分服務的資料保存可能受到影響,詳細資訊請參閱我們的部落格文章

OpenAI 的基礎模型,包括支援 ChatGPT 運作的模型,是使用三種主要資訊來源開發而成:(1) 網路上公開可得的資訊,(2) 我們與第三方合作取得的資訊,以及 (3) 我們的使用者、真人訓練師和研究人員提供或生成的資訊。

本文概述了我們用來協助開發這些模型的公開可得資訊,以及我們如何在遵循隱私法規的情況下收集和使用這些資訊。若要瞭解我們如何收集及使用服務使用者的資訊,包括如何選擇不讓 ChatGPT 對話用於協助訓練我們的模型,請參閱我們的《隱私權政策》這篇說明中心文章

ChatGPT 是什麼?它是如何運作的?

ChatGPT 是一項以人工智慧為基礎的服務,可以透過網際網路存取。可以使用 ChatGPT 完成各式各樣的任務,包括整理與總結資訊、協助翻譯、分析或生成圖像、激發創意與靈感,以及處理其他日常活動。ChatGPT 的設計目的是透過從大量資訊中學習模式,包括文字、圖片、音訊和影片,來理解並回應使用者的問題和指示。在訓練期間,模型會分析這些資料中的關係,例如單詞通常如何在上下文中一起出現,並運用這種理解,在生成回應時逐一預測最可能出現的下一個單詞。同樣地,會產生其他形式內容(例如圖像)的模型,會學習訓練資料中像素彼此之間,以及與相關說明文字之間的關係模式。

例如,在模型的學習過程中(稱為「訓練」),模型可能會被要求完成這樣的句子:「她沒有向左轉,而是向 ___ 轉。」在訓練初期,其回應大多是隨機的。然而,隨著模型處理大量文字並從中學習,它會更擅長識別模式,並預測最可能出現的下一個詞彙。這個過程會針對數百萬個句子反覆進行,以微調其理解並提升其準確性。

由於完成一個句子可能有多種合理方式,例如「她沒有左轉,而是向右轉」、「轉身」或「折返」,因此模型的回應方式本質上帶有一定程度的隨機性。因此,同一個問題在不同查詢中可能會產生不同的答案。

機器學習模型由大量數字集合組成,這些數字稱為「權重」或「參數」,並有程式碼用來解譯和使用這些數字。這些模型不會儲存或保留訓練資料的副本。相反地,隨著模型學習,其參數的數值會稍作調整,以反映它所識別出的模式。在先前的例子中,模型從預測隨機單詞進步到能做出更準確的預測,不是透過儲存訓練句子,而是透過更新其內部參數。模型不會保留其在訓練期間處理的句子、圖片或音訊副本。ChatGPT 並不會從其訓練資料中「複製貼上」內容,這就像一位教師在經過廣泛學習後,能夠透過理解不同想法之間的關係來解釋概念,而不是逐字記憶或重現原始教材。在生成對使用者要求的回應時,模型會使用這些學習到的權重來預測並建立新內容。

哪種類型的公開資訊會用來教導 ChatGPT?

針對公開可得的網路內容,我們僅使用網路上可自由且公開存取的資訊。我們不會刻意從已知設有付費牆的來源或暗網收集資料。此外,我們會套用篩選條件,移除不希望模型學習的內容,例如仇恨言論、成人內容、彙整個人資訊的網站以及垃圾資訊。其餘資訊則會用於訓練我們的模型。

個人資訊會用來訓練 ChatGPT 嗎?

由於相當一部分線上內容涉及人們的相關資訊,因此我們的訓練資料可能會無意間包含個人資訊。然而,我們不會為了訓練我們的模型而刻意蒐集個人資訊。

我們使用訓練資料來發展模型的能力,例如預測、推理和解決問題,而不是用來建立使用者檔案、聯絡個人,或作為我們廣告或行銷活動的一部分。

在某些情況下,模型可能會從個人資訊中學習,了解姓名和地址等元素在語言中的作用,或辨識公眾人物與知名實體。這有助於模型生成更準確且符合脈絡的回應。

我們會積極採取措施,限制訓練期間對個人資訊的處理。例如,我們會排除彙整大量個人資料的來源,並訓練我們的模型,避免回應有關個人隱私或敏感資訊的請求。

ChatGPT 的開發如何遵守隱私權法規?

我們依法使用訓練資訊。我們的基礎模型支援各式各樣有益的應用,從內容創作、客戶支援,到軟體開發、個人化教育和科學研究。這些能力仰賴大規模訓練資料。用於訓練我們模型的資訊為公開可得,且其用途並非為了對個人造成傷害。根據 GDPR 等隱私權法律,我們基於合法權益蒐集及使用訓練資訊中包含的個人資訊,詳情請參閱我們的《隱私權政策》。我們已完成資料保護影響評估,以協助確保我們以合法且負責任的方式收集和使用此資訊。


我們會處理「反對權」請求及類似權利由於語言學習的特性,ChatGPT 的回應有時可能會包含某些人 (例如公眾人物) 的個人資訊;這些資訊曾多次出現在公開網際網路上。特定司法管轄區的個人可以反對我們的模型處理其個人資訊,或透過我們的隱私權入口網站提出其他資料主體權利請求。你也可以聯絡 dsar@openai.com 來行使這些權利。請注意,根據隱私權法規,部分權利可能並非絕對的。如果我們有合法理由,可能會拒絕您的請求。然而,我們致力於將個人資訊保護列為優先事項,並遵守所有適用的隱私權法規。如果您認為我們未妥善處理某項問題,您有權向當地監管機關提出申訴。如需進一步了解 OpenAI 在您使用我們的網站、應用程式和服務時,針對我們向您收集或與您相關的個人資訊所採取的做法,請參閱我們的隱私權政策

這篇文章有幫助嗎?