GPT-4：マルチモーダル対応と高度な安全性

この記事では、OpenAIが2023年3月に発表した、マルチモーダル大規模言語モデル「GPT-4」を紹介します。この分野でのマルチモーダルとは、複数の形式のデータを扱うことができるモデルのことを指し、GPT-4はテキストと画像の入力、および、テキストの出力ができるという点でマルチモーダルLLMと言えます。

【はじめに】

これまでのGPTシリーズでは、どのようなデータを事前学習に使用したのか、モデルの学習にはどのような方法を使用したのか、パラメータ数はいくつか、などの情報が公開されていました。しかし、GPT-4の技術レポートではこうした情報は公開されていません。モデルのベースとなるAIアーキテクチャは、これまでのモデルと同様にTransformerとなっています。また、RLHFという手法を用いてもファインチューニングをしました。

この記事では、「モデルの性能」と「安全性への取り組み」をメインに取り上げていきます。

【モデルの性能について】

GPT-4に対しても様々なベンチマークを測定しました。GPT-4はマルチモーダルモデルなので、はじめに従来の大規模言語モデルとしての性能の評価を見ていきます。後半では、技術レポート内で取り上げられている画像とテキストの同時認識能力を紹介していきます。

Text-to-Text

文章から文章を生成するタスクには、選択式のものと自由記述式の試験の両方が含まれています。従来のLLMでも使われているようなベンチマークについては以下の表をご覧ください。表の太字は、技術レポート発表時点でのSOTA（最先端の記録）を表していて、ほとんどの有名なベンチマークで最高記録を更新したことがわかります。

GPT-4の優れた点はこれだけではありません。GPT-4はUBE（Uniform Bar Exam）と呼ばれる米国統一司法試験において、上位10％の成績を収めました。これは、GPT-4の前のモデルであるGPT-3.5では下位10％の成績であったことを考えれば、その進化が驚異的であることがわかります。

また、多くの機械学習ベンチマークは英語のデータからなるものが多いため、他言語におけるモデルの性能を評価することが難しくなります。そこで、57科目からなる知識や推論などの様々なタスク遂行能力が求められるMMLUベンチマークを、Azure Translateで翻訳し、英語以外の言語におけるモデルの性能を調べました。

GPT-4の多言語におけるMMLUベンチマークの結果は以下の表の通りです。

表の見方としては、緑色の項目はGPT-4が最高値を記録した部分、青色の項目はGPT-3.5の部分などのようになります。

GPT-4はRLHFというファインチューニングをしましたが、ファインチューニングの前後で選択式の問題に対する能力の違いに大きく変化は見られなかったことが報告されています。

これらの結果から、翻訳、コーディング、推論、質問応答、多言語に渡る自然言語理解タスクなど、様々な領域で好成績を残したことがわかります。

Image-to-Text

GPT-4はテキストと画像の入力、およびテキストの出力が可能なので、画像の入力とそれに関するテキストの入力から、テキストを生成する能力を調べました。

技術レポートの付録に記載されている画像理解の例を２つ紹介します。

例１）

一つ目の例はジョークの理解に関するものを紹介します。

上のような画像に加えて、次のようなテキストプロンプトを入力します。

「この写真の面白い点はどこですか。一枚ずつ説明してください。」

そうすると、各写真の説明の後に、次のような回答が返ってきました。

「これは、大きくて時代遅れなVGAコネクターを、小さくて現代的なスマートフォンの充電ポートに差し込んでいる点が面白いです。」

このように、画像の入力からそれらの説明だけでなく、それらのおかしいところまで指摘できるようになっています。

例２）

２つ目の例は、École Polytechniqueというフランスの理工系の高等教育機関の試験問題を解いてもらったものを紹介します。

このタスクの難しい点は主に２つあると考えられます。ひとつはフランス語で書かれているということで、学習量が英語よりも少ないことから、英語の問題を解くよりも難易度は上がると考えられます。もうひとつは大学レベルの物理学の問題を扱っているために、難易度が高いという点です。では、GPT-4はこのプロンプトにどのように回答したのでしょうか。

結果は上の図のようになり、フランス語と物理学という二つの壁を乗り切って見せました。

【安全性への取り組み】

ここまではGPT-4にできることを解説してきましたが、こうした技術は利用上の安全性を確保することが必要不可欠です。OpenAIの技術レポートでは、安全性への取り組みも述べられていましたので、いくつか紹介していきます。

大規模言語モデル（LLM）をはじめとした生成AIにおいてよく取り上げられる問題が「幻覚（Hallucination）」です。これは、モデルが誤った情報を提供してしまうことを指します。次のグラフは、９つの分野における質問に対して、人間の理想的な返答をどれくらいの割合で再現できるかを評価したもので、以前の３つのモデルと比較してGPT-4の幻覚症状は大きく改善していることがわかります。

さらにモデルのリスクを緩和するための学習も行いました。この学習の内容は、不適切な内容を回答させるようなプロンプトを意図的に入力し、モデルが倫理的に正しくないものを判断できるように修正していくというものです。また、不適切な出力をさせないだけでなく、一見すると不適切な内容に見えても倫理的には問題がないようなプロンプトに対しては、きちんと回答させるような修正も加えています。

このような学習を経て、GPT-4はこれまでのモデルよりも大幅に安全性や有用性を向上させたのです。

【まとめ】

OpenAIが2023年3月に発表した最新の大規模言語モデル「GPT-4」は、テキストと画像の入力が可能なマルチモーダルモデルです。GPT-4は、米国統一司法試験で上位10％の成績を収めるなど、GPT-3.5と比べて大幅に性能が向上しています。また、翻訳や推論など多言語タスクでも高評価を得ています。技術レポートでは、画像理解能力や安全性の向上も詳述されており、特にモデルの幻覚の改善や倫理的判断能力の向上に取り組んでいることが強調されています。

今後も、GPTモデルのさらなる進化に期待していきましょう！

【参考文献・画像出典】

「GPT-4 Technical Report」

Tokkyo.Ai機能のご案内

【はじめに】

【モデルの性能について】

Text-to-Text

Image-to-Text

【安全性への取り組み】

【まとめ】

【参考文献・画像出典】