この記事では、イーロン・マスク氏が設立した「xAI」というスタートアップ企業が開発したLLMである、「Grok」について紹介していきます。開発初期のモデルから最新のモデルまで解説していきます。
1.Grokの開発目的とは?
xAIの公式ブログによると、Grokという大規模言語モデルの開発目的のひとつとして、『あらゆる背景や政治的見解を持つ人々にとって有益なAIツールを設計すること』を挙げています。また、もうひとつの目的として、『強力な研究アシスタントとして機能』させることも挙げています。関連情報にアクセスし、データを処理し、さらには新しいアイデアまでも生み出すことを可能にするAIツールであるとしています。
Grokの特徴として、X(旧Twitter)のプラットフォームを通じたリアルタイムデータの取得があります。そのため、他のAIツールよりもタイムリーな話題に関する質問にも答えてくれる可能性があります。
2.初期モデル「Grok-1」
xAIが2023年11月に公式ブログでGrokの初期モデル「Grok-1」の概要を公開し、2024年3月17日の公式ブログで「Grok-1」のリリースと同時に、モデルの詳細も公開されました。そこで「Grok-1」の特徴を簡単にまとめていきます。
- 学習データ:大量のテキストデータ
- モデルの設計:JAXとRustをベースとした独自のシステムによるMoE(Mixture of Experts)モデル。
- パラメータ数:314B(3140億)のパラメータ数を持つとされています。アクティブパラメータ数は全体の約25%とされています。
- 特定のタスクにファインチューニングされておらず、2023年10月に学習したモデルである。
これらの特徴に加えて、「Grok-1」の特定のベンチマークによる評価も公開されていますが、後半で紹介していきます。
3.次世代モデル「Grok-1.5」
2024年3月28日に、xAIの公式ブログで次世代モデルの詳細が公開されました。新型モデル「Grok-1.5」は、初期モデル「Grok-1」から推論と問題解決能力が向上したと報告されています。また、「Grok-1.5」の大きな特徴としては、コーディングや数学に関連する能力が大幅に向上したことです。以下の表では、4種類のベンチマーク評価が掲載されています。
[出典:Announcing Grok-1.5;https://x.ai/blog/grok-1.5]
現在、最も有名なベンチマークのひとつであるMMLUでは、発表当時の最先端のモデルに劣ります。(2024年8月1日時点では、GPT-4oの88.7が最高水準となっています。)中段のMATHとGSM8kはともに数学関連のベンチマークですが、「Grok-1」のときより精度が大きく向上しているのがわかります。最後のHumanEvalはコーディングに関するベンチマークですが、74.1%の精度となり、2024年3月時点でClaude 3 Opusに次ぐ精度となっています。
「Grok-1.5」のもうひとつの特徴としては長文の理解能力の向上です。最大128,000トークンにも及ぶ文章を処理することができるとされています。これにより、Grokのメモリ容量は従来のコンテキスト長の最大16倍に増加し、大幅に長い文書からの情報を活用できるようになりました。
(注:コンテキスト長とは、大規模言語モデルが一度に処理できるトークンの最大数を指します。)
4.最新マルチモーダルモデル「Grok-1.5V」の性能とは!?
さらに、2024年4月12日に、最新のマルチモーダルモデル「Grok-1.5V」が発表されました。VはVision(視覚)の頭文字をとっており、Grok-1.5Vがテキストの処理能力に加えて、画像処理能力も持っていることを表しています。文書や科学図表、図、スクリーンショット、写真などの画像を理解することができるとされています。また、このモデルの研究の一環として、RealWorldQAという現実世界の空間理解能力を測定するベンチマークを設定しました。5つのモデルとそれらのベンチマーク評価については以下の表の通りです。
[出典:Grok-1.5 Vision Preview;https://x.ai/blog/grok-1.5v]
この表では、数学や図表、グラフ、文書、さらに現実世界の視覚情報に関するベンチマークの評価を行っています。多様な学問分野におけるモデルの能力を試すMMMUでは、53.6%のスコアを記録し、GPT-4Vと比較してやや劣ります。Mathvistaという数学の問題に関するベンチマークでは、52.8%と、他のモデルよりも優れたパフォーマンスを発揮しており、Gemini Pro 1.5と同等の成績になります。AI2Dという図やグラフを読み取るベンチマークでは88.3%とやや高い性能を持ち、Claude 3 Sonnetに近い記録となりました。しかしながら、ChartQAという図やグラフの情報を読み取る能力を図るベンチマークでは、76.1%となり、全体と比較してやや劣る結果となりました。また、文書から情報を抽出する能力を評価するベンチマークでは85.6%とやや高い成績となりました。最後に、このモデルから導入されたRealWorldQAでは、68.7%のスコアで5つのモデルの中で最も高い水準となりました。
・Grok-1.5Vにできること
公式ブログで紹介されているGrok-1.5Vの画像理解の例をいくつかご紹介します。
- 手書きのフローチャートからプログラミングのコードを生成する
- 食品の栄養表示から、5切れ当たりのカロリーの計算をする
- 子供が描いた絵を元にストーリーを生成する
- ユーモアのある写真から、その意味を説明する
- 表の写真からcsv形式に出力する
- 机の一部の写真から木材の腐敗について答える
- 規則性のある問題の写真から、それを解くPythonコードを生成する
このような様々な写真を含む質問に対して、ときには計算やコーディングも実行しながら回答することができます。
5.Grokの料金
2024年8月1日現在、Grokを利用できるユーザーは限られています。具体的には、Xの有料プラン(ベーシック、プレミアム、プレミアムプラス)のうちの、プレミアムあるいはプレミアムプラスのユーザーのみがGrokを利用することができます。ただしプレミアムでGrokを利用できるのは、一部地域のユーザーのみとなっています。X Premium+は日本円で月額1960円となっています。
6.まとめ
イーロン・マスク氏率いるxAI社の最新のLLMである「Grok」を紹介してきました。「Grok-1」「Grok-1.5」「Grok-1.5V」とモデルの改善が行われ、最新モデルは画像理解もできるマルチモーダルモデルとなっており、注目のLLMであることがわかりました。「Grok-1.5V」の表では、図やグラフに関するタスクには安定性がないことや、現実世界の空間理解能力は他のモデルよりも優れていることなどが確認できました。
その一方で、他のLLMよりも規制が緩く、危険な質問にも答えられてしまいます。そういった点でGrokの利用には適切な配慮が必要です。
また、現在ではXの有料サービスの一部登録者のみがGrokを利用可能となっており、無料では利用できないことにも注意しましょう。