Chat GPTとは？特徴4つ、どのように学習して動作するのか

2023年6月2日

「Chat GPTとは何か？」

開発元であるOpen AI 公式、実際に利用した際の画像、メディアのニュースなどをもとに、Chat GPTの特徴、どのように学習して動作するのか分かりやすく紹介しています。

Chat GPTとは？分かりやすく解説

Chat GPT（チャットジーピーティー）は、分かりやすく言うと、AIが搭載されたロボットが、ユーザーの質問に対して自動で回答してくれるコミュニケーションチャットツールです。

2022年10月にTwitterを買収して話題のイーロン・マスク氏、サム・アルトマン氏らが設立したOpenAI（人工知能研究組織）が開発。

事前に人間のフィードバックを得て学習をし会話を生成するので、まるで人間と話しているかのようにチャットができます。

Chat GPTを分解すると、Chat（会話）とGenerative Pre-trained Transformer（生成的な事前トレーニング済みのトランスフォーマー※）。
※トランスフォーマーは、2017年にGoogleの研究者らが発表した深層学習モデル。主に自然言語処理の分野（NLP）で使用される。

詳しく見る

Chat GPTは、Open AIが開発した大規模言語モデル（大量のテキストデータを使ってトレーニングされた言語モデル）GPT-3を調整したGPT-3.5を基に構築されています。

2023年3月14日にGPT-4がリリース。

Open AIはGPT-4の詳細な性能を公開していません。

あわせて読みたい

AI（人工知能）とは｜何の略？由来、定義をわかりやすく解説 AI（人工知能）とは何か、わかりやすく解説。 AIの定義、言葉の由来、機械学習とは何か、簡潔に紹介しています。【AI（人工知能）とは？】 AI（人工知能）は、コンピュ…

情報は正確でない

公式サイトに以下記載があります。 ※翻訳

時折誤った情報を生成する可能性があります。

時折、有害な指示や偏ったコンテンツを生み出す可能性があります。

コンテンツ生成の仕組みは後述。

無料で利用可能、有料版は月20ドル

Chat GPTは、無料で使うことができます。

有料版（20ドル：日本円だと2,800円前後）だと、より専門的でスムーズな回答を得ることが可能です。

Chat GPTに、無料版と有料版の違いを質問したところ、下記の回答が返ってきました。

無料版のChatGPTは、一般的な質問に答えることができます。また、一定の応答速度で応答することができますが、高度な質問や特定の用途に対応するためのカスタマイズはできません。

一方、有料版のChatGPTは、より高度なカスタマイズが可能で、例えば特定の業界や分野に特化した応答を提供することができます。また、高速かつ優れたパフォーマンスを提供し、大量のリクエストにも対応することができます。

有料版では、APIアクセスを提供し、開発者がChatGPTを自分のアプリケーションやサービスに統合することができます。このように、有料版は、企業や開発者向けに設計されており、高度なニーズに対応することができます。

ただし、有料版の詳細なプランや機能は、提供者によって異なる場合があるため、利用前にしっかりと確認することが重要です。

この後、カスタマイズについて続けて質問をしましたが、情報が新しくないため的確な回答はありませんでした。

あわせて読みたい

Chat GPT 性能比較：GPT-3.5 Default、Legacy、GPT-4 本記事では、Chat GPTの各バージョン（GPT-3.5 Default、GPT-3.5 Legacy、GPT-4）の性能を比較分析。同じ質問を各モデルにすることで、推論力、応答速度、簡潔さの面で…

注目を集めている背景

TBS NEWS

最近は、AI（人工知能）がチャットで対応してくれる企業サイトなども増えていますが、ChatGPT は、あらゆる分野の質問に詳しく回答してくれることから、「私たちの世界を変える」と注目を集めています。

世界で最も利用者数が多い検索エンジン「Google」が会話型AIサービスへの参入を決めたことで、ニュースや様々なメディアで大きく取り上げられています。

>>特徴を見る

あわせて読みたい

Chat GPTとGoogleのAI Bardの違い、どちらを利用すべき？ OpenAIのチャットサービス「Chat GPT（チャットGPT）」とGoogleの会話型AIサービス「Bard（バード）」の違いを徹底調査。公式サイトのサービス内容だけでなく、エンジ…

OpenAIが2022年11月に公開したチャットボット

一応、Wikipedia、開発を手がけたOpen AIによる説明を紹介します。

正直なところ、専門用語が多く難しいと思います。

記事後半でChat GPTの特徴を初心者向けに解説しているので、分からない用語があったら読み飛ばしてください。

>>特徴を見る

GPT-3.5の言語モデルを基に構築

Wikipedia（英語版から大雑把に翻訳されたもの）による説明は、下記の通りです。

ChatGPT（チャットジーピーティー、Generative Pre-trained Transformer）^[1]は、OpenAIが2022年11月に公開したチャットボット。OpenAIのGPT-3ファミリーの言語モデルを基に構築されており、教師あり学習と強化学習の両方の手法で転移学習されている。 2022年11月30日にプロトタイプとして公開され、幅広い分野の質問に詳細な回答を生成できることから注目を集めた。

開発会社Open AIの説明は、下記の通りです。

我々はChatGPTと呼ばれる会話形式で対話するモデルを訓練しました。対話形式により、ChatGPTはフォローアップの質問に答えたり、間違いを認めたり、間違った前提に挑戦したり、不適切な要求を拒否したりすることが可能になっています。ChatGPTはInstructGPTの兄弟モデルで、プロンプトの指示に従い、詳細な応答をするように訓練されています。

あわせて読みたい

GPT-3.0とGPT-3.5の違いを初心者向けに分かりやすく解説本記事では、「OpenAIが開発した言語モデル、GPT-3.0とGPT-3.5の違い」を解説しています。 ※2023年3月31日、一部修正、関連記事を追加※海外の信頼性が高いサイトから開…

Chat GPTの特徴4つ

Chat GPTの主な特徴を4つにまとめました。

人間のフィードバックから学習している
人間と対話ができる
不正確または無意味な答えを書くことがある
不適切なリクエストを拒否する

それぞれ解説していきます。

1.人間のフィードバックからの強化学習（RLHF）を用いて学習している

このモデルは，InstructGPTと同じ手法で，人間のフィードバックからの強化学習（RLHF）を用いて学習させたが，データ収集の設定に若干の違いがある。

InstructGPTは、ユーザーの指示（instruction）に従った出力が行えるようにGPTを調整したものです。

Chat GPTも人間のフィードバックから強化学習（RLHF）を用いて学習しています。

つまり、Chat GPTとの会話は、ただ入力したデータが出力されるわけではありません。

強化学習（RLHF）とは、機械学習の手法のひとつ。フィードバックベースのプロセスを伴う試行錯誤を通じて、コンピューターに経験から学習させます。

あわせて読みたい

機械学習とは？意味、種類4つ、由来をわかりやすく解説機械学習（Machine learning）は、コンピュータに「学習」させる手法です。つまり、コンピュータに大量のデータ（テキスト、画像、音声、コード）を学習させ、将来の予…

2.人間と対話ができる

これは、人間のAIトレーナーがユーザーとAIアシスタントの両者を演じた会話を提供するものです。訓練生は、モデルによって書かれた提案にアクセスすることで、応答を構成するのに役立てることができます。この新しい対話データセットをInstructGPTデータセットと混合し、対話形式に変換した。

対話形式に変換したと記述があるように、Chat GPTは対話ができるよう調整されています。

▼詳しく見る

報酬モデルを作成するために2つ以上のモデルの反応を品質でランク付けした比較データを収集

強化学習のための報酬モデルを作成するためには、2つ以上のモデルの反応を品質でランク付けした比較データを収集する必要があった。このデータを収集するために、AIトレーナーがチャットボットと交わした会話を取り込みました。モデルが書いたメッセージをランダムに選択し、いくつかの選択肢をサンプリングして、AIトレーナーに順位をつけてもらいました。この報酬モデルを使って、Proximal Policy Optimizationでモデルの微調整を行います。このプロセスを何度か繰り返しました。

3.不正確または無意味な答えを書くことがある

ChatGPTは、時々、もっともらしく聞こえるが、不正確または無意味な答えを書くことがあります。

それはなぜか？

この問題を解決することは、以下のように困難である。(1)RLトレーニングでは、現在、真実のソースがありません。(2)より慎重になるようにモデルをトレーニングすると、正しく答えられる質問を拒否するようになります。(3)教師ありトレーニングでは、理想的な答えは、人間のデモが知っていることではなく、モデルが知っていることに依存するので、モデルを誤解させることになります。

強化学習（RL：Reinforcement Learning）は、プログラムの行動に対するフィードバック（報酬・罰）をトレーニングデータとして使って学習しますが、現在は真実のソース（出典）がありません。

教師あり学習は、正解・不正解が明確な問題の解決に利用できる学習手法です。

4.不適切なリクエストを拒否する

また、不適切なリクエストを拒否するように工夫していますが、有害な指示に反応したり、偏った挙動を示したりすることがあります。

不適切なリクエストと捉えるかは微妙なところですが、AIの政治的バイアスが問題になっています。

Chat GPTはどのように学習して動作するのか

Chat GPTは、以下のプロセスで学習して動作すると言われています。

学習フェーズ
- 事前学習フェーズ（言語構造や一般的な知識を学ぶ）
- 微調整フェーズ（人間のフィードバックで調整）
生成フェーズ（質問への応答を最適化）

簡潔にまとめると、Chat GPTは、大規模なデータで一般的な知識を学び、人間のフィードバックで微調整されることで学習。

人間が入力したテキストを解析、文脈や意図を把握し、応答や文章を生成します。

▼参考画像

Chat GPT（GPT-4）が生成した文章を見る

それぞれのフェーズを詳しく解説していきます。

※ここから先は専門用語が多いので、まとめまで読み飛ばして大丈夫です。
※専門家の資料も添付しているので、詳しく知りたいという場合は併せてご覧ください。

1.学習フェーズ

学習フェーズは、言語モデル（Chat GPTのような）を訓練するためのプロセスです。

一般的に学習フェーズは、以下2つの段階に分けられます。

事前学習フェーズ（Pre-training phase）
微調整フェーズ（Fine-tuning phase）

事前学習フェーズ（Pre-training phase）

事前学習フェーズでは、インターネット上の大量のテキストデータ（ウェブページ、書籍、記事など）から学習します。

このデータセットは、一般的な知識や文法、文脈理解などをカバーしています。

このフェーズの目的は、モデルに自然言語の基本的な理解を獲得させることです。

学術記事PDF（英語）：教師なし事前トレーニングが深層学習に役立つのはなぜですか?

微調整フェーズ（Fine-tuning phase）

事前学習フェーズで獲得した基本的な言語知識を元に、モデルは特定のタスク（例：質問応答、対話生成など）に対応できるように調整されます。

このため、タスクに関連するデータセットを使って追加の学習が行われます。

この段階では、人間のフィードバックを利用して学習し、性能を向上させることができます。

Google Scholar（英語）：Fine-tuning phase

2.生成フェーズ（generation phase）

生成フェーズは、学習が完了したモデルが入力されたテキストに対して応答や文章を生成するプロセス（過程）です。

分かりやすく言うと、Chat GPTが質問への応答を最適化する過程です。

この過程は、以下のステップで構成されています。

入力の受け取り：ユーザーからのテキスト入力
- 入力を分割：入力テキストをトークン（単語やサブワード）に分割
- 入力を効果的に処理できる形式に変換
文脈の理解：Chat GPTが入力されたテキストを解析し、文脈や意図を把握
- 文脈をエンコードする隠れ状態ベクトル（英語）が生成
応答の生成：入力に対する応答を生成
- オートリグレッシブ（自己回帰的）なアプローチ
- 1つのトークンを生成するごとに、その生成されたトークンが次のトークンに影響
- 生成されたトークン列を、人間が読める自然言語テキストにトークンを結合
- 生成された複数の応答候補を評価し選択（人間のフィードバックや、モデルによる評価スコアを使用）

応答の質や文章の適切さを向上させる要素

応答や文章の質や適切さを向上させるために、以下の要素が考慮されます。

要素

確率的サンプリング：生成されるトークンの確率分布に基づいて次のトークンを選択
サンプリング手法：生成されるトークンの候補を制限し
温度調整：温度パラメータを調整することで、生成物の多様性と保守性をコントロール
最大トークン数の設定：生成される文章の長さを制限し、冗長や不完全な文章を避ける
注意機構（アテンション）：入力テキスト内の特定の部分に焦点を当てることで関連性の高い情報を抽出
モデルのアンサンブル：複数のモデルを組み合わせて使用することで生成した応答を結合し、生成物の品質を向上

まとめ

Chat GPTは、Open AIが開発したユーザーの質問に対して、会話形式で自動で回答してくれるAIチャットボットです。AI技術が使われたサービスであり、AI（人工知能）そのものではありません。

Chat GPTは、大規模なデータで一般的な知識を学び、人間のフィードバックで微調整されることで学習、人間が入力したテキストを解析、文脈や意図を把握し、応答や文章を生成します。

下記の特徴があるため、全てを信用することはできません。

人間のフィードバックから学習
対話ができる（対話の過程で3、4が生じる）
不正確または無意味な答えを書くことがある
不適切なリクエストを拒否する

著作権やプライバシーの問題から、企業によって使うことを禁止していたり、推奨していたり賛否両論というのが現状です。

しかし、AI技術そのものは有用であり、世界的にはバランスの取り方を議論しながら活用する方向で進んでいます。

どう活かすかは、人間次第です。

気になったという方は、実際に試してみてください。

公式サイト：Chat GPT（英語）

あわせて読みたい

Chat GPTの使い方を分かりやすく解説！利用する際の注意点5つ本記事では、Open AI が提供するチャットボット「Chat GPT（チャットジーピーティー）の使い方」を画像付きで解説しています。画像は全てスマホのスクリーンショットで…

Chat GPTとは？特徴4つ、どのように学習して動作するのか

Chat GPTとは？分かりやすく解説

情報は正確でない

最新の情報に対応していないがプラグインで対応可能

無料で利用可能、有料版は月20ドル

注目を集めている背景

OpenAIが2022年11月に公開したチャットボット

GPT-3.5の言語モデルを基に構築

Chat GPTの特徴4つ

1.人間のフィードバックからの強化学習（RLHF）を用いて学習している

2.人間と対話ができる

3.不正確または無意味な答えを書くことがある

4.不適切なリクエストを拒否する

Chat GPTはどのように学習して動作するのか

1.学習フェーズ

事前学習フェーズ（Pre-training phase）

微調整フェーズ（Fine-tuning phase）

2.生成フェーズ（generation phase）

応答の質や文章の適切さを向上させる要素

まとめ

AI関連記事

【速報】Chat GPT 日本語版で利用可能な「アルファ」がスタート

Open AIに対して政府の個人情報委員会が個人情報の利用目的を求める

Sam Altman（サム・アルトマン）はどんな人物？発言から価値観に迫る

Chat GPT、年齢確認ツール提供でイタリアから利用可能に

Chat GPT PLUS（有料版）の解約手順を7枚の画像付きで解説

OpenAIのCEOサム・アルトマン氏来日！首相官邸で岸田首相と会談

Chat GPTがイタリアでアクセス停止になった2つの理由

Chat GPT 性能比較：GPT-3.5 Default、Legacy、GPT-4

Chat GPTのプラグインとは？何ができるか、利用方法も解説