Skip to main content

ChatGPT及び当社言語モデルの開発方法について

当社モデルの開発方法及びChatGPTなどの製品への応用について解説します。

Updated over 2 months ago

ChatGPTが作動するモデルを含むOpenAIの大規模言語モデルは、(1)インターネット上の公開情報、(2)第三者から利用許諾された情報、(3)当社のユーザーやトレーナー(人)から提供された情報、を3つの主要な情報源として利用し、開発されています。

この記事では、当社モデルの開発に利用する公開情報と、当社がどのようにプライバシー関連法令にしたがい情報を取得・利用するのかについての概要をご説明します。ChatGPTとの対話の当社モデル学習への利用を不許可とする意思表示(オプトアウト)など、当社サービスのユーザーからの情報に関する取得・利用についてお知りになりたい場合は、当社のプライバシーポリシー及びこちらのヘルプセンターの記事をご覧ください。

ChatGPTとは何か及びその機能について

ChatGPTは、インターネット経由でアクセスできる、人工知能をベースとしたサービスです。ChatGPTを使用して、文字情報の整理や要約、新規文章の作成ができます。ChatGPTは、ユーザーの質問や指示を理解し、応答できるように開発されています。これは、ChatGPTに既存の文字情報を大量に「読み」込ませ、特定の単語が他の単語との文脈でどのように表示させる傾向があるかを学習することによって可能になります。次に、ユーザーの依頼に応じて、特定の単語の次に続く可能性が最も高い単語を、学習した内容を利用して予測し、その後に続く書く単語も予測します。これは、検索エンジン、スマートフォン及び電子メールのプログラムにおけるオートコンプリート機能と類似します。

例えば、モデルのラーニングプロセス(「学習」といいます)において、モデルに「彼女は左に曲がって行く代わりに、___ た」という文を完成させてみることにしましょう。学習前、モデルはランダムな単語で応答します。しかし、多くの文字情報を読み込み、学習すると、このような種類の文章への理解が深まり、次の単語をより正確に予測できるようになります。そして、非常に多くの文章において、このプロセスを繰り返します。

この文の次に続く可能性のある単語が多数あるため(例えば、左に曲がって行く代わりに、「右に曲がっ」た、「振り向い」た、「引き返し」た等)、モデルの回答方法にランダムな要素が含まれ、多くの場合、同じ質問を聞かれても、当社モデルは異なる回答を示すでしょう。

機械学習モデルは、「重み」または「パラメーター」と呼ばれる多数の数値の列と、それらの数値を解釈して実行するコードで構成されています。モデルは、学習した情報の複製を包含・保存しません。その代わり、モデルの学習が進むにつれ、モデルを構成する数値の一部が、学習した内容を反映してわずかに変化します。先ほどの例では、当該モデルが情報を読み込むことで、ランダムで誤った単語予測が、より正確な単語予測に改善されましたが、モデル内で実際に起きたことは、数値のわずかな変化のみです。このモデルは、読み込んだ文章の保存や複製を行いません。

ChatGPTを学習させるには、どのような種類の情報が使用されますか?

上記のように、ChatGPT及びその他のサービスは、(1)インターネット上で公開されている情報、(2)第三者からライセンス供与された情報、及び(3)ユーザー又はトレーナー(人)が提供する情報を使用して開発されています。ここでは、最初の項目であるインターネット上で公開されている情報に焦点をあてます。

かかる一連の情報について、インターネット上で自由かつオープンに入手可能な公開情報のみを使用します。- 例えば、有料サービス内の情報や「ダークウェブ」の情報は求めません。当社はフィルターを適用し、差別的表現、アダルト向けコンテンツ、主に個人情報を集積するサイト、スパムなど、当社モデルに学習させたり出力させたりしたくない情報を除外します。次に、その情報を使用してモデルを学習します。

前のセクションでご説明したとおり、ChatGPTは、学習に利用した情報について、データベースに保存や複製を行いません。その代わりに、単語間の関連性を学習し、この学習は、当該モデルが数値や重みを調整するのに役立ちます。そして、当該モデルは、ユーザーの依頼に応じて、かかる重みを利用して新しい単語を予測、生成します。これは、学習情報の「コピー&ペースト」ではなく、例えば、本を読み、その説明をする人間のようです。ただし、当社モデルは、学習後、学習した情報にアクセスしません。

ChatGPTの学習における個人情報の利用について

インターネット上のデータの多くは人に関連するものであるため、当社の学習情報に個人情報が偶発的に含まれることがあります。当社は、当社モデルの学習のために、個人情報を積極的に求めることはありません。

当社は、当社モデルが、言語自体を覚え、これに対する理解及び応答する方法について学習させる目的のためにのみ、学習情報を利用します。個人に関するプロファイルの作成、個人に対する連絡、広告、売り込み、または情報自体の販売を行うために、現在も将来も、学習情報に含まれる個人情報を利用いたしません。

当社モデルは、個人情報から、名前及び住所などが言語及び文章内でどのように使われているかを理解したり、有名人及び公人について学習したりすることがあります。これは、当社モデルがより適切な応答をすることに役立ちます。

また、当社は、モデル学習時に個人情報の取扱いを減少させる措置を講じています。例えば、大量の個人情報を集約するウェブサイトを除外し、人に関する個人情報または要配慮個人情報の要求を拒否するように当社モデルを学習させています。

ChatGPT開発時のプライバシー関連法令の遵守状況について

当社は、学習情報を適法に利用しています。当社の大規模言語モデルには、大きな利益をもたらす多くのアプリケーションがあり、すでにコンテンツの作成、顧客サービスの向上、ソフトウェアの開発、教育のカスタマイズ、科学研究の支援その他に貢献しています。これらの利益は、モデルに学習させる大量の情報なしでは実現できません。さらに、学習情報の当社による利用は、個人に悪影響を与えることを意図しておらず、この学習情報の主要な情報源は、すでに一般に公にされたものです。これらの理由から、当社は、当社の プライバシーポリシーで詳細を説明するとおり、GDPR(一般データ保護規則)などのプライバシー関連法令上の正当な利益に基づいて、学習情報に含まれる個人情報を取得し、利用しています。また、当社は、当社によるこの情報の適法かつ責任ある取得及び利用が確実に行われるために役立つ、データ保護影響評価を完了しております。

当社は、異議申立や類似の要望に対応します。言語学習の結果、ChatGPTの応答には、(公人など)その個人情報が公共のインターネットに複数回表示される個人に関する個人情報が含まれる場合があります。一定の法域の個人は、当社の プライバシーポータルを通じて、当社モデルによる個人情報の取扱いに関する異議申立請求をすることができます。また、個人には、当社学習情報内に含まれる可能性のある個人情報について、閲覧、修正、制限、削除、転送に関する請求権を有する場合があります。これらの権利を行使する場合には、dsar@openai.com宛てにご連絡ください。

プライバシー関連法令に基づき、一部、権利が行使できない場合があることにご留意ください。当社は、法的に正当な理由がある場合、リクエストを拒否することがありますが、個人情報の保護を優先し、適用されるすべてのプライバシー関連法令の遵守に努めて参ります。当社による問題点への対応が不適切だとお考えの場合、お客様はその所在地の監督当局に対し苦情申立をすることができます。

お客様が当社のウェブサイト、アプリケーション及びサービスを利用する際に当社がお客様から取得するお客様に関する個人情報に関してOpenAIによる取扱実務の詳細についてお知りになりたい場合は、当社の プライバシーポリシーをご覧ください。

Did this answer your question?