Mixtral 8x7B:専門家システムで高速化と高性能を実現!

この記事では、2023年12月にMistral AIから発表された「Mixtral 8x7B」を紹介します。

Mistral AIは、2023年5月にフランスのパリで創業したAIスタートアップ企業です。Mistral AIの初期モデル「Mistral 7B」の発表から約3か月で、新たなモデル「Mixtral 8x7B」が発表されました。

 

1.Mixtral 8x7Bとは!?

はじめに、Mixtral 8x7Bというモデルについて簡単に紹介します。

モデルのアーキテクチャはTransformerをベースにしており、以前のモデルである「Mistral 7B」と同じ修正を加えていますが、さらに改善点がいくつかあります。改善点の1つ目は、最大で32000トークンの文章に対応できるようになったことです。Mistral 7Bは約16000トークンまでの対応であったので、大きな改善点であると言えるでしょう。

改善点の2つ目は、Sparse Mixture of Experts(SMoE)と呼ばれる仕組みの利用です。これの元になっている技術がMixture of Experts(MoE)であり、日本語では「専門家の混合」と訳すことができます。MoEでは、モデルはいくつかの「専門家」を持っており、特定の入力データを各専門家に分配し、それぞれで計算をした結果を最終的に統合していきます。しかしながら、このモデルは優れたパフォーマンスを発揮する一方で、非常に複雑な構造ゆえに計算コストが大きくなってしまうという欠点がありました。そこで、「Sparse(疎)」に改良していきます。

Mixtral 8x7Bでは、それぞれが独立した8つの専門家をモデル内に持ち、そのうちの2つの専門家のみに入力データを分配しています。これにより、従来のMoEよりも計算コストを抑えることができるようになっていると考えられます。

モデルの名称であるMixtral 8x7Bを注意深く見てみると、Mixture of Expertsの”Mix”と企業名のMistral AIを掛け合わせて「Mixtral」、専門家が8つと、各専門家のブロックにおけるパラメータが70億(7B)であることから、8x7Bと名付けられていることもわかります。

 

モデルの仕組みを簡単に図式化したものが以下の図になります。モデル内では、入力ベクトルがルーターを介して8つのうちの2つの専門家に割り当てられます。その後、各専門家ブロックの中で計算が実行されます。2つの専門家を通して得られた結果に重みをつけて計算することで最終的な出力が得られるという仕組みになっています。

[出典:Mixtral of Experts;https://arxiv.org/pdf/2401.04088]

 

●8つの専門家とは?

では、Mixtral 8x7Bに使用されている8つの専門家には具体的にどのようなものがあるのでしょうか。Mixtral 8x7Bの中で作動する専門家は以下の8つです。

「ArXiv」「GitHub」「PhilPapers」「StackExchange」「DM Mathematics」「Gutenberg」「PubMed Abstracts」「Wikipedia(en)」

それぞれの専門家について簡単に解説します。

  1. ArXiv:科学技術分野の論文に特化している。
  2. GitHub:ソフトウェア開発、プログラムコードに特化している。
  3. PhilPapers:哲学論文や哲学研究に特化している。
  4. StackExchange:数学やプログラミングなどの技術的な質問と回答に特化している。
  5. DM Mathematics:数学の問題解決に特化している。
  6. Gutenberg:文学作品に特化している。
  7. PubMed Abstracts:医学および生命科学の論文要約に特化している。
  8. Wikipedia:一般的な知識や百科事典的な情報に特化している(英語のサイト)。

Mixtral 8x7Bは、これら8つの専門家を統合したモデルとなっています。

 

2.各ベンチマークスコアについて

この技術レポートでは、Meta社のLLaMAをベンチマークの比較対象としています。以下の表はモデルの評価を表しています。

[出典:Mixtral of Experts;https://arxiv.org/pdf/2401.04088]

 

表の各項目を順に説明していきます。左から2列目のActive Paramsはアクティブパラメータ数のことです。これはMoEやSMoEに特有の概念で、実際のモデルのパラメータ数よりも推論の実行で使用されるパラメータ数が小さくなるため、従来のパラメータ数と区別しています。LLaMAでは特にMoEなどを使っているといったことはありませんので、従来のパラメータ数とアクティブパラメータ数は一致しています。

次に各ベンチマークについて見ていきましょう。MMLUは57科目の専門的な知識を要する、有名なデータセットです。HellaswagからARC-Challengeまでの5項目は、日常的な知識や理解に基づいた推論能力を測るベンチマークです。Natural QuestionsとTriviaQAは知識に関する能力を測る指標です。HumanEvalとMBPPはコーディングに関するベンチマーク、MATHとGSM8Kは数学に関するベンチマークとなります。Mixtral 8x7BはSMoEにより、56Bパラメータのうちの約13Bパラメータのみが活性化されています。したがってパラメータ数で考えると、LLaMA 2 13Bと同程度であると言えるでしょう。しかしながら、Mixtral 8x7Bの性能は、パラメータ数がはるかに大きいLLaMA 2 70Bと拮抗していることがわかります。

また、科学技術分野の能力がLLaMA 2よりも高くなっていますが、これは数学やプログラミングなどの科学技術分野の専門家が4つ含まれていることと関係していると考えられます。

 

3.他のモデルとの比較

前述の各ベンチマークスコアではLLaMA 2モデルとの比較を行いましたが、技術レポートではさらにGPT-3.5との比較も行っていました。比較には7つの有名なベンチマークを使用しました。その結果が以下の表になります。

[出典:Mixtral of Experts;https://arxiv.org/pdf/2401.04088]

 

MT-Benchは人間の好みにどれだけ対応できるかを試すデータセットです。これは従来のMMLUなどで高いスコアを出しても、人間が好むような返答をできていない事例が見られたために開発された指標です。

GPT-3.5、LLaMA 2 70Bと比較しても、7つのベンチマークの中の4つにおいて、高い性能を示しました。しかし、GPT-4やGeminiなどの膨大なパラメータ数を持つ大規模言語モデルと比較すると、Mixtral 8x7Bの能力は決して高いとは言えません。

 

4.まとめ

この記事ではMistral AIが開発した「Mixtral 8x7B」を紹介しました。Mixtral 8x7Bの要点は以下のようになります。

  • 8つの専門家モデルから2つを選択するSMoEによる、高速な大規模言語モデル
  • 多くのベンチマークでLLaMA 2 70Bに匹敵する性能を持つ
  • 特に数学やプログラミングの能力が高い

Mistral AIの次なるモデル「Mixtral 8x22B」にも注目してみてください。

 

【参考文献】

Mixtral of Experts