Phi-3：小さなモデルで大きな飛躍を　　　～Microsoftの新戦略～

Microsoftは米国時間の4月23日に、新しい「小さな言語モデル」Phi-3シリーズを発表しました。MicrosoftはこれまでにもPhiシリーズをいくつか発表しており、今回はその最新版となります。この記事ではPhi-3シリーズはどのような点で優れているのか、Microsoft公式Webサイトと技術レポートを元に解説していきます。

１．開発の背景

近年はChatGPTをはじめとした生成AIの進化が著しいですが、その根幹を支えてきたのが大規模言語モデル（LLM）という技術です。これまでのLLMの開発においては、パラメータやデータ量を膨大にすることでその性能を格段に向上させてきました。具体的には2019年頃にはパラメータ数は15億程度が主流であったのに対し、現在ではパラメータ数が1兆を超えるモデルも存在します。こうした開発の元となったのが、スケーリング則（Scaling Law）という法則でした。しかし最先端の研究により、この仮説は必ずしも正しくないのではないかと考えられるようになってきました。実際、Phiモデルの以前の研究では、LLMに基づいたWebデータのフィルタリングとLLMによる合成データの組み合わせによって、通常の”大規模な”言語モデルでしか実現しなかったような性能が、”小さな”言語モデルでも実現できることが示唆されたのです。この考え方の下で、同様の手法による小さな言語モデル「SLM」の開発を行いました。

また用語に関して、SLMは通常のLLMよりは小規模の言語モデルということで、「小さな大規模言語モデル」という意味の「small Large Language Model」の頭文字をとって、sLLMと呼ばれることもあります。

２．モデルの種類と学習方法

今回のPhi-3シリーズではサイズの異なる３つのモデルが用意されています。

Phi-3-mini
Phi-3-small
Phi-3-medium

Phi-3シリーズは共通して、Transformerデコーダーを基盤にしています。その一方で、パラメータ数などには以下のような違いがあります。

Phi-3-miniは、デフォルトでは4000トークンを読み込むことができるようになっています。事後学習により、この32倍の長さのトークンを読み込めるように拡張したモデルもあります。また、Phi-3-miniのパラメータ数は38憶となっています。

Phi-3-smallはデフォルトで8000トークンの文章を読み込むことができるようになっており、パラメータ数は70億となっています。

Phi-3-mediumのパラメータ数はPhi-3-smallよりも２倍も大きく、140憶となっています。これは

また、Phi-3-miniは非常にサイズが小さいため、スマートフォンでも約1.8GBの容量のみで利用できます。実際に研究ではiPhone14のモデルで検証したようですが、完全にオフラインの状態で、1秒間に12トークン以上のテキストを生成できたそうです。参考程度に、OpenAIのLLMであるGPT-3のパラメータ数は1750億とされています。したがって、Phi-3-miniのパラメータ数はGPT-3の約50分の１ということになります。

続いて学習方法について解説していきます。

【事前学習】

これまでのLLM開発のように、インターネット上の大量のデータではなく、少量の高品質なデータを使用して学習していきます。そのためには、高品質な学習データを用意する必要があります。そこで、言葉の正しい使い方を教育するようなデータを用意します。モデルの事前学習は2段階で行われました。1段階目では、モデルに一般教養と言語理解を教えることを目的として学習を行います。そして2段階目では、1段階目で使用したフィルタリングされたデータと、モデルに理論的な推論と様々な専門的なスキルを教えるための合成データを統合して学習をしました。Phi-3の開発では小さなモデルでも上手く機能するように、不要な情報は取り除いてあります。

【事後学習】

Phi-3-miniの事後学習は2段階で行われました。ひとつは教師ありのファインチューニング（Supervised Finetuning; SFT）であり、もうひとつはDirect Preference Optimization (DPO)と呼ばれる最適化手法になります。SFTでは、数学やコーディング、推論、会話、安全性など、様々な領域に渡って、厳選されたデータを使用してファインチューニングをしました。DPOのデータは会話形式のデータや、責任あるAIへの取り組みに関するデータを含んでいます。これらの事後学習によって、言語モデルを効率的かつ安全に対話できるAIアシスタントに変えています。

３．モデルのベンチマークについて

Phi-3モデルの様々なタスクに対する能力を評価しました。すべての結果を載せることはできませんが、言語、コーディング、数学の能力を評価する様々なベンチマークにおいて、Phi-3のサイズを上回るモデルよりも優れた結果を示しました。また、パラメータ数がPhi-3.miniよりもはるかに大きいとされているGPT-3.5と比較しても、いくつかのベンチマークではPhi-3-miniが上回りました。

４．モデルの安全性と欠点

◆モデルの安全性

Phi-3モデルはMicrosoftが定める「責任あるAI原則」に従って開発されています。前述の事後学習の段階で、「安全性」という項目がありましたが、ここではPhi-3-miniモデルを何度もテストし、それらのフィードバックを元にして新たなデータセットを追加していきました。これにより、有害な回答をする確率が減少したことが報告されています。

◆モデルの欠点

Phi-3は言語理解や推論などにおいて、より大規模な言語モデルよりも優れていることは確認できましたが、この小型モデルでは能力が制限されてしまうタスクがあることも否定できません。例えば、TriviaQAという簡単な知識に関する質問に答えるというタスクでは、学習した知識の量が少ないため他のモデルよりも劣っていました。これには、検索エンジンをつけるという解決策が考えられます。もうひとつの例としては、多言語に対応しにくいということが挙げられます。しかし、学習データに多言語のデータを含めることで、能力の改善は見込めます。

５．まとめ

この記事では、Microsoftから新たに発表されたSLMである、「Phi-3」シリーズを紹介しました。Phi-3の主な特徴をまとめてみました。

小さな言語モデル（SLM）でスマホでも利用できる
高品質な学習データにより、軽量かつ高性能なモデルを実現
知識に関する質問や翻訳タスクなどではまだまだ改善の余地がある！

大規模言語モデルだけではなく、Phi-3-miniのように身近なデバイスで利用できる小さな言語モデル（SLM）の進化にも注目していきましょう！

【参考文献】

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Tiny but mighty: The Phi-3 small language models with big potential

AI検索サービスご案内