OpenAI
此頁面由機器翻譯。查看原文英文文章

ChatGPT 及我哋嘅基礎模型係點樣開發

了解我哋點樣開發模型,並將佢哋應用到 ChatGPT 等產品

更新日期:18 hours ago
注意
:近期法律發展或會影響某些服務的資料保留安排;詳情請參閱我們的

網誌文章

OpenAI 的基礎模型,包括支援 ChatGPT 運作的模型,主要使用三類資訊開發:(1) 互聯網上公開可得的資訊;(2) 我們與第三方合作以取得的資訊;以及 (3) 我們的用戶、人類訓練員及研究人員提供或生成的資訊。

本文概述我們用於協助開發這些模型的公開可得資訊,以及我們如何在遵守私隱法律的情況下收集和使用該等資訊。如需了解我們如何收集和使用服務用戶的資訊,包括如何選擇不讓 ChatGPT 對話用於協助訓練我們的模型,請參閱我們的《私隱政策》這篇幫助中心文章

甚麼是 ChatGPT?它如何運作?

ChatGPT 是一項可透過互聯網存取、以人工智能為基礎的服務。你可以使用 ChatGPT 處理各種任務,包括整理及摘要資訊、協助翻譯、分析或生成圖像、啟發創意和構思,以及其他日常活動。ChatGPT 透過從大量資訊中學習模式,包括文字、圖像、音訊及影片,從而理解並回應用戶的問題和指示。在訓練期間,模型會分析這些資料中的關係,例如詞語通常如何在上下文中一起出現,並運用這種理解,在生成回應時逐字預測下一個最有可能出現的詞語。同樣地,生成其他形式內容(例如圖像)的模型,會學習訓練資料中像素之間,以及像素與相關說明文字之間的關係模式。

例如,在模型的學習過程(稱為「訓練」)中,模型可能會被要求完成這樣的句子:「她沒有向左轉,而是向___轉。」在訓練初期,它的回應大多是隨機的。然而,隨着模型處理並從大量文字中學習,它會更擅長識別模式,並預測下一個最有可能出現的詞語。這個過程會在數以百萬計的句子中反覆進行,以完善其理解並提升準確度。

由於完成一句句子可以有多種合理方式,例如「她沒有向左轉,而是向右轉」、「轉身」或「往回走」,因此模型回應的方式本身帶有一定隨機性。因此,同一個問題在不同查詢中可能會得到不同答案。

機器學習模型由大量數字(稱為「權重」或「參數」)以及解讀和使用這些數字的程式碼組成。這些模型不會儲存或保留其訓練所用資料的副本。相反,隨着模型學習,其參數值會被稍作調整,以反映它所識別到的模式。在較早前的例子中,模型由預測隨機詞語進步至作出更準確的預測,並非透過儲存訓練句子,而是透過更新其內部參數。模型不會保留它在訓練期間處理過的句子、圖像或音訊副本。ChatGPT 不會從其訓練資料中「複製並貼上」——這就像教師經過廣泛學習後,能夠透過理解概念之間的關係來解釋概念,而無需逐字記憶或重現原始材料。在回應用戶請求時,模型會使用這些已學習的權重來預測並建立新內容。

哪些類型的公開資訊會用於訓練 ChatGPT?

就公開可得的互聯網內容而言,我們只使用在互聯網上可自由和公開存取的資訊。我們不會故意從已知設有付費牆的來源或暗網收集資料。此外,我們會套用篩選器,移除我們不希望模型學習的材料,例如仇恨言論、成人內容、匯集個人資訊的網站及垃圾訊息。其餘資訊隨後會用於訓練我們的模型。

個人資訊會用於訓練 ChatGPT 嗎?

網上內容有相當大部分涉及有關人物的資訊,因此我們的訓練資料可能會附帶包含個人資訊。然而,我們不會為了訓練模型而故意收集個人資訊。

我們使用訓練資料來發展模型的能力,例如預測、推理及解決問題,而不是用於建立用戶檔案、聯絡個人,或作為廣告或營銷工作的一部分。

在某些情況下,模型可能會從個人資訊中學習,以了解姓名和地址等元素在語言中的作用,或識別公眾人物和知名實體。這有助模型生成更準確且更符合上下文的回應。

我們採取積極措施,以限制訓練期間對個人資訊的處理。例如,我們會排除匯集大量個人資料的來源,並訓練模型避免回應索取個人私人或敏感資訊的請求。

ChatGPT 的開發如何遵守私隱法律?

我們依法使用訓練資訊。我們的基礎模型支援各種有益的應用,從內容創作和客戶支援,到軟件開發、個人化教育及科學研究。這些能力有賴大規模訓練資料。用於訓練我們模型的資訊是公開可得的,且並非意圖對個人造成傷害。就訓練資訊中包含的個人資訊,我們根據 GDPR 等私隱法律下的合法利益作為收集和使用依據;詳情請參閱我們的《私隱政策》。我們已完成資料保障影響評估,以協助確保我們合法且負責任地收集和使用這些資訊。

我們會回應反對請求及類似權利請求由於學習語言的結果,ChatGPT 的回應有時可能會包含有關個人的個人資訊,而這些個人資訊在公開互聯網上多次出現(例如公眾人物)。某些司法管轄區的個人可透過我們的私隱入口網站,反對我們的模型處理其個人資訊,或提出其他資料當事人權利請求。你亦可透過聯絡 dsar@openai.com 行使這些權利。

請注意,根據私隱法律,某些權利未必是絕對的。如我們有合法理由,我們可能會拒絕請求。然而,我們致力優先保障個人資訊,並遵守所有適用的私隱法律。如果你認為我們未有充分處理某項問題,你有權向你當地的監管機構提出投訴。

如需進一步了解 OpenAI 在你使用我們的網站、應用程式及服務時,就我們向你或關於你收集的個人資訊所採取的做法,請參閱我們的《私隱政策》

這篇文章對你有幫助嗎?