Phi-4:LLMを超える軽量な高性能オープンソースモデル

この記事では、MicrosoftのPhiモデルファミリーの最新モデル「Phi-4」をご紹介します。Phi-4は従来の言語処理に加えて、数学などの分野での複雑な推論に優れています。140億のパラメータを持ち、小規模言語モデル(SLM)では最先端のモデルとして注目されています。2025年1月7日(米国時間)には、Hugging Face上ではMITライセンスとして利用可能となりました。そんなPhi-4モデルの性能について詳しく見ていきましょう。

 

【目次】
  1. Phiモデルファミリーとは?
  2. Phi-4の革新性 ~合成データの活用~
  3. モデルのベンチマーク評価
  4. Phi-4の特徴と制限
  5. まとめ

 

1.Phiモデルファミリーとは?

Phiモデルファミリーは、Microsoftが開発した小規模言語モデル(SLM)のシリーズです。このモデルファミリーは以下のような特徴を持っています。

  • 高性能かつコスト効率の良い小規模言語モデル(SLM)
  • 同サイズや一回り大きなモデルよりも優れた性能を発揮する
  • 言語処理、推論、コーディング、数学などの幅広いベンチマークで高いスコアを達成している

 

これまでにPhiモデルファミリーは何種類か発表されています。Phi-1に始まり、Phi-3シリーズではマルチモーダル対応の「Phi-3 vision」も発表され、2024年12月に今回の「Phi-4」が発表されました。Phiモデルファミリーは、小型なデバイスやローカル環境でAIを実装できることなどを強みとしています。

また、これまでのPhiモデルファミリーの利用にあたっては、Microsoft Research License Agreement(MSRLA)と呼ばれる研究ライセンスの下で提供されていましたが、今回の1月の発表では、すべてのPhiモデルファミリーが、MITライセンスとしてHugging Face上で提供されることになりました。これにより、以下のような利用方法が可能となりました。

  • 商用アプリケーションへの組み込み
  • モデルの改変や再配布
  • 自社サービスや製品への統合

 

2.Phi-4の革新性 ~合成データの活用~

従来の大規模言語モデル(LLM)は、膨大なデータを学習・計算処理することで、モデルの性能を向上してきました。GPTシリーズをはじめとした多くのLLMがこのような手法で開発されています。しかし、データや計算量の増加に伴ってコストや環境への負荷の増加などといった問題も抱えていました。Phi-4は小規模言語モデル(SLM)として、これらの大規模なモデルとは異なるアプローチで学習を行いました。

その方法が、データ品質へのこだわりと、合成データの活用なのです。従来のLLM開発で利用されていたWebサイト上の「自然データ」は、ノイズが多かったり、偏りが存在したりします。この課題を解決するのが「合成データ」です。合成データとは、人手で作成したり、ルールに基づいて生成したりする、人工的なデータのことを指します。Phi-4では、主に以下のような技術を用いて、高品質な合成データを生成したとされています。

 

  1. マルチエージェントプロンプティング:複数のエージェントを対話させ、高品質な対話データを生成する。
  2. 自己改訂ワークフロー:モデル自身が生成したデータを批判・修正するサイクルを繰り返して、論理的整合性を高めたデータを生成する。
  3. 命令反転:既存のデータ(コードなど)から、それを生成するための命令文を逆推定し、特定の形式の出力を向上させます。

 

これらの合成データ生成技術に加えて、リジェクトサンプリングと呼ばれる操作によって、生成されたデータから特定の条件を満たすものだけを採用するようにして、データの品質を維持しています。こうした訓練データへのこだわりは、特に推論能力と問題解決能力の向上において効果を発揮しています。

 

3.モデルのベンチマーク評価

最先端のモデルPhi-4の性能について詳しく見ていきます。Phi-4は推論能力とSTEM(理工学、エンジニアリング、数学)分野における高い性能を持っています。以下の図は、2024年11月に行われた米国数学コンテストにおける、異なるモデルのパフォーマンスを比較したものです。最も右側に示されているのがPhi-4モデルとなっており、他のモデルと比較しても非常に高い性能を持っていることが確認できます。

(Technical Reportより引用)

さらに以下の表は、いくつかの小規模言語モデルと大規模言語モデルにおける、様々なベンチマーク評価をまとめたものです。表の最も左にあるモデルがPhi-4であり、小規模言語モデルの中では比較的高い水準となっていることが確認できます。

(Technical Reportより引用)

さらに注目すべきは、大学院レベルのSTEM分野のQ&Aベンチマークである、「GPQA」と、数学コンテストの問題解決能力を測る「MATH」において、Phi-4がOpenAIの主要モデルであるGPT-4oを上回っていることです。これは、Phi-4が単なる知識を詰め込んだモデルではなく、思考力を兼ね備えたモデルであることを表しています。

さらに、140億パラメータという、比較的小規模なモデルでありながら、700億パラメータを持つLlama 3.3 -70Bなどの大規模言語モデルに対しても、多くのベンチマークで同等以上の性能を示しています。特に、推論能力が試されるMMLUやHumanEvalなどのベンチマークでは、Llama-3を凌駕しています。これらの結果から、Phi-4の開発でデータ品質と合成データに力を入れたことで、効率的に賢さを獲得したと言えるでしょう。

 

4.Phi-4の特徴と制限

これまでにも見てきた通り、Phi-4は軽量でありながら非常に高い推論能力を兼ね備えています。これは、高品質な合成データの利用や、自己改訂ワークフローなどの学習効果によって実現されています。しかしながら、いくつかの制限もあります。

性能の観点では、GPQAやMATHベンチマークで高いパフォーマンスを示したものの、SimpleQAのように知識を問うベンチマークの一部では、より大きなモデルに劣る結果となっています。また、指示に厳密に従うことができない場合があることも言及されています。特に出力フォーマットを細かく指定された場合などには、指示通りに出力できないことがあります。また、他のモデルと同様に、ハルシネーション(幻覚)の問題は完全には解消されていません。回答スタイルについて、Phi-4は一問一答に最適化されているため、複数のターンに渡る対話(チャットボットのような連続した対話)には、まだ十分に対応できない場合があります。

 

5.まとめ

この記事では、Microsoftの最新SLM「Phi-4」をご紹介してきました。Phi-4の特徴を次のようにまとめます。

  • Phi-4はMicrosoftが開発した最先端のSLM
  • 高品質な合成データ効果的な学習手法を活用して開発されている
  • 数学や推論のベンチマークの一部では、GPT-4oを上回る性能を発揮
  • Q&Aベンチマークなどでは制限もある
  • MITライセンスとして商用利用可能に!

 

Phi-4の「高品質データによる開発」というアプローチは、軽量かつ高性能なSLMが求められる時代において、重要な開発手法となるでしょう。今後は、「思考するAI」だけでなく、効率性を重視した「小規模言語モデル(SLM)」の進化にも注目していく必要があります。

 

【参考文献・画像出典】