Gemini:Googleのマルチモーダル言語モデルがもたらす変革と課題

この記事ではGoogleのマルチモーダルな言語モデルである、Geminiについて紹介していきます。

 

1.GoogleのGeminiとは

GeminiはGoogleが2023年12月に技術レポートを公開した言語モデルで、この技術レポートでは初期モデルのGemini 1.0が紹介されていました。さらに2024年2月15日にはGemini 1.5も公開されました。Gemini 1.0にはGemini Ultra、Gemini Pro、Gemini Nanoの3つのモデルがあり、Gemini Nanoには、さらにGemini Nano-1とGemini Nano-2があります。最も高性能なモデルがGemini Ultraであり、Gemini Nanoはスマートフォンなどでも利用可能な軽量なモデルです。そんなGoogleの最新のLLMについて、技術レポートをもとに紹介していきます。

 

2.Geminiの特徴

GeminiモデルはPaLMと同様にTransformerをベースにしています。また学習データには、画像や映像、音声データを含むネット上の文書や書籍、コードなどを用いています。

では、Geminiのどんなところがすごいのか。一言でいえば、“高性能なマルチモーダルモデル”というところです。ここで言うマルチモーダルというのは、複数種類のデータを扱えることを表します。従来の大規模言語モデル(LLM)の入出力データは主にテキストだったのですが、Geminiは画像や映像、音声データを処理することができます。とは言っても、マルチモーダル大規模言語モデルは少し前からありました。それがOpenAIのGPT-4です。Geminiのすごいところは、GPT-4を上回る性能を持っているということです。技術レポートでは、32個のベンチマークのうち30個において最高記録を更新したとされています。それでは、具体的にそれぞれの能力とその評価を見てみましょう。

 

3.能力の評価① ~文章・コード編~

はじめに、Googleの以前のLLMでも評価されてきた文章やコードの実力を見ていきます。有名なベンチマークのひとつとして、MMLU(Massive Multitask Language Understanding)があります。MMLUは57種類の異なるからなる、専門的な知識を必要とする試験で、STEM(Science, Technology, Engineering, and Mathematics)、人文科学、社会科学などを含みます。この試験の難易度は初級レベルから専門レベルまで幅広く、その中で知識と問題解決能力の両方が試されます。これまでの最高記録がGPT-4の86.4%だったのですか、Gemini Ultraは思考連鎖プロンプトを用いることで90.04%という最高記録を更新しました。また、人間の専門家の最高記録が89.8%だったのですが、この人間の記録を更新したのもGemini 1.0 Ultraが初めてでした。その他にも多くのベンチマークで最高記録を更新しました。詳しくは以下の図をご覧ください。青色の文字で書かれた部分が最先端の記録を表しています。これを見ると、ほとんどの項目でGemini 1.0 Ultraが最先端の記録を持っていることがわかります。

[出典:Gemini: A Family of Highly Capable Multimodal Models;https://arxiv.org/pdf/2312.11805.pdf

 

(注)LLMの進化は著しいので、既に最先端の記録が塗り替えられていることがありますので、ご注意ください。

 

続いて、PaLMの技術レポートでも取り上げられた数学の分野の実力を見ていきます。数学の分野のベンチマークは、その難易度に合わせて2つあります。初等的なレベルの文章問題の「GSM8K」、中学高校レベルの競技数学に使われるような問題の「MATH benchmark」です。両方のベンチマークにおいて最高記録を更新しました。

さらにコーディングの分野を見ていきましょう。プログラムを合成する際に機能的に正しいかどうかを測るベンチマークである「HumanEval」では0-shot(コード補完に対する直接的な学習をしていない)状態での最高記録を更新しました。(0-shotという条件をなくしてしまうと、2024/3/8時点では13位という結果でした。)また、自然言語からコードに変換する能力を測る「Natural2Code」というベンチマークでも、0-shotの条件では最高記録を更新しました。

 

4.能力の評価② ~画像・映像・音声編~

次に、Gemini 1.0のマルチモーダルの性能を見ていきましょう。

◎画像認識

画像認識で重要なベンチマークのひとつとして、MMMU(Massive Multi-discipline Multimodal Understanding)があります。MMMUとは6つの学問領域にわたる大学レベルの知識を要するような画像問題です。技術レポートでは、6つのうち5つの学問領域で最高記録を更新したことが書かれています。

 

◎画像生成

画像生成ではベンチマークは載っていないですが、具体的に画像を出力させる方法は記載されているのでここで紹介します。

はじめにプロンプトとして、一連の画像とテキストを間をあけて入力します。そうすると画像とテキストで返答をしてくれていました。

 

◎映像認識

そもそも映像を理解するとはどういうことなのでしょうか。映像とは一枚一枚のフレーム画像を高速で回したものですから、映像を理解するとは、「フレーム画像の意味を理解すること」と「フレーム同士の関係性を理解すること」だと言えます。そこで、Geminiは16フレーム毎に画像を取り出し、それらの関係性を理解します。映像理解に関するベンチマークでも、すべてにおいて最高記録を更新していました。

 

◎音声認識

音声認識の評価ではGemini Nano-1, Gemini Proのモデルを使っています。音声認識では主に2つのタスクに注目します。ひとつは自動会話認識であり、もうひとつが自動会話翻訳です。自動会話認識ではWERという単語の認識ミスの割合を測り、自動会話翻訳ではBLEUというプロの翻訳家の翻訳にどれくらい近いかという指標を使用しました。音声認識でもすべてのベンチマークにおいて最高記録を更新しました。

 

◎異なるデータ形式の組み合わせ

マルチモーダルの実演では基本的にはテキストデータと単一のモダリティ(通常は画像)の組み合わせで行われますが、技術レポートでは音声データと画像データのマルチモーダルを実演していました。具体例はオムレツの作り方を扱っていました。

 

5.問題点

Geminiの評価を見てきてわかる通り、マルチモーダルで性能も過去最高レベルであり、問題点はなさそうに見えます。しかし、既にGoogleからGeminiの問題点が報告されています。

それが「画像生成機能の停止」です。Geminiは大規模言語モデルの名称であり、生成AIチャットサービスの名称でもあります。画像生成機能の停止が発表されたのは、生成AIチャットサービスの方です。

今回の問題は主に2つありました。まず、Geminiの画像生成機能では世界中のユーザーがいるため、特定の人種に限定しない画像生成をするように調整したのですが、その結果、文化的、歴史的背景からありえないような画像が生成されるという事例が確認されたそうです。

次に、モデルが学習を重ねるにつれてユーザーのプロンプトに対して過度に慎重になってしまい、問題のない内容でも画像生成を拒否するようになったことです。

これらを踏まえて、Googleは「人物画像の生成を停止し、再開する前に大幅な改善に取り組みます。」と発表しました。AIの利用上の注意として、「幻覚(ハルシネーション)」を起こす可能性を理解しておく必要性があることを大いに実感するニュースでした。

 

6.後継モデル:Gemini 1.5について

2024年2月16日にGemini 1.5が公開されました。Gemini 1.5はGemini 1.0の後継モデルであり、Gemini 1.5の初期モデルはGemini 1.5 Proと呼ばれていて、これまでの最大のモデルであるGemini 1.0 Ultraと同程度のパフォーマンスが可能だそうです。特に改善した点としては、より多くのトークンを一度に処理できるようになったことで、長文の文脈理解や11時間に及ぶ音声データなどを処理できるようになりました。

 

7.まとめ

  • GeminiはGoogleのマルチモーダルな大規模言語モデルで、3つのモデルがある。
  • 最も高精度なGemini 1.0 Ultraは様々なベンチマークで最高記録を更新した。
  • マルチモーダルな機能は便利だが、画像生成機能は停止された。
  • 後継モデルのGemini 1.5 Proも発表され、Gemini 1.0 Ultraに匹敵する性能を持っている。

 

【参考文献】

Gemini: A Family of Highly Capable Multimodal Models

Gemini image generation got it wrong.

次世代モデル、Gemini 1.5を発表