Meta社が放つ無料オープンソースAI『LLaMA 3.2』:GPT-4を超えるマルチモーダル対応

2024年9月25日Meta社は次世代のAIモデル「LLaMA 3.2」を発表しました。無料で利用可能なオープンソースAIモデルであるLLaMA 3.2は、GPT-4に匹敵する性能を誇り、その可能性をさらに広げています。

7月23日に発表された前モデル、LLaMA 3.1は、オープンソースモデルかつ最高性能のモデルとして注目を集めましたが、マルチモーダル対応が課題でした。しかし、LLaMA 3.2ではその課題を克服し、テキスト処理に加えて画像認識も可能なマルチモーダルLLMとして登場しました。

この新モデルには、モバイルデバイスで動作可能な1B・3Bの軽量テキストモデルに加え、画像理解に対応する11B・90Bのビジョンモデルが含まれています。これにより、Meta社は多様なアプリケーションに対応できるLLMを提供しています。次に、LLaMA 3.2の詳細な機能について説明していきます。

Llama 3.1に関する記事はこちら

 

無料で商用利用!LLaMA 3.2が示すオープンソースとマルチモーダルの可能性

LLM(大規模言語モデル)には大きく分けてオープンソースモデルとクローズドソースモデルの2つがあります。これまで、GPT-4やClaude 3.5 Sonnetなどのクローズドソースモデルが高い性能を誇っていましたが、それに並ぶ性能のオープンソースモデルとしてLlama 3.1が登場しました。

LLaMA 3.1 405Bは、オープンソースでありながらGPT-4oといったクローズドモデルに匹敵するパフォーマンスを発揮することで注目を集めましたが、マルチモーダル対応が課題となっていましたれに対して、新たに登場したLLaMA 3.2では、この課題が解決され、テキストと画像の両方に対応する高性能なオープンソースモデルへと進化を遂げています。

クローズドソースモデルは、LLMの学習データや内部構造を公開せず、利用時にはAPI料金を支払う必要があります。それに対し、Llama 3.2はオープンソースモデルであり、無償で私的利用や商用利用が可能な点が大きな魅力です。また、内部構造も公開されているため、開発者からのフィードバックを受けて製品の有用性を向上させる取り組みも行っています。さらに、開発者や研究者が最高性能を誇るLlama 3.2を研究することができるため、LLMのさらなる発展が期待されます。

 

スマートフォンでも高性能!:LLaMA 3.2軽量モデル1B・3Bモデルの魅力

LLaMA 3.2は、モバイルデバイスでも快適に動作する1Bおよび3Bの軽量テキストモデルを提供しています。これらのモデルは、128Kトークンという長いコンテキストをサポートしており、要約や命令の追跡、さらにはエッジデバイス上でのローカルタスクの書き換えなど、多様なタスクを処理できます。また、スマートフォンなどのモバイル端末で簡単に利用でき、多言語対応でグローバルな活用が可能な点も非常に魅力的です。

これにより、Meta社が提供するプラットフォーム、FacebookなどにAIが組み込まれる日もそう遠くはないでしょう。

  • ローカル処理による高速動作: 処理が端末で行われるため、動作が非常に高速です。
  • プライバシー保護: ローカル処理により、データの外部送信が不要で、プライバシーが守られます。
  • 128Kトークンの長コンテキストサポート: 複雑なタスクや長いテキストでも処理可能です。
  • 多言語対応: ドイツ語、フランス語などの8言語に対応しています。

 

下の図からも分かるように、LLaMA 3.2 3BはGoogleのGemmaやMicrosoftのPhi-3.5 miniといったモデルをMMLUやMATHといったすべての評価基準で上回っています。この軽量化された言語モデルは、モバイルデバイスで使用されるモデルの中でもトップクラスの性能を誇り、オープンソースである点も大きな魅力です。これにより、LLM(大規模言語モデル)のさらなる多様化と成長が期待されています。

出典:)Llama 3.2: Revolutionizing edge AI and vision with open, customizable models (meta.com)

 

軽量化と高性能の融合:LLaMA 3.2を支えるプルーニングと知識蒸留の技術

LLaMA 3.2は、最新の技術である「プルーニング」と「知識蒸留」を用いて、軽量化しながらも高い性能を実現しています。具体的には、LLaMA 3.1の405Bなどの大型モデルから不要なパラメータを削減(プルーニング)し、より効率的な構造に再構築しています。さらに、大型モデルの知識を小型モデルに引き継ぐ(知識蒸留)ことで、軽量モデルでも大規模モデルと同等の理解力と生成力を発揮することが可能になりました。

  • プルーニング:不要なパラメータを削減し、モデルを軽量化。これにより、計算リソースを節約しながら高い性能を維持。
  • 知識蒸留:大規模モデルの知識を小規模モデルに継承。小さなモデルでも大規模モデル並みの理解力と生成力を発揮。

 

LLaMA 3.2のマルチモーダル革命:GPT-4o miniを超える実力

LLaMA 3.2には、LLaMAシリーズ初のビジョンモデルとして11Bモデルと90Bモデルが登場しました。このバージョンでは、テキストに加えて画像の認識も可能となり、マルチモーダル対応が実現しています。

  • 画像とテキストに対応したマルチモーダル機能
  • GPT-4o miniに同等の性能
  • 128Kトークンの長コンテキストサポート

下の図からもわかるように、LLaMA 3.2のビジョン性能は、GPT-4o miniやClaude 3 Haikuと同等以上の性能を示しています。特に、LLaMA 3.2 90Bは画像認識において、Claude 3 Haikuを全ての評価基準で上回り、GPT-4oをMMMUなどの4つの基準のうち3つで上回る結果を示しました。さらに、テキスト処理の性能でも、LLaMA 3.2はすべての基準でClaude 3 Haikuを超え、GPT-4oに対しても4基準中2基準で優位性を示しています。

これらの結果から、LLaMA 3.2は現行のマルチモーダル対応クローズドモデルと同等、あるいはそれ以上の性能を持つ、優れたマルチモーダル対応オープンソースLLMであることが明らかです。

出典:)Llama 3.2: Revolutionizing edge AI and vision with open, customizable models (meta.com)

 

オープンソースの利点

  • 開発者コミュニティの活用

Llama 3.2はオープンソースモデルとして公開されており、世界中の開発者や研究者が自由にアクセスして使用することができます。これにより、コミュニティ全体からのフィードバックや貢献を受けてモデルが継続的に改善されます。また、多様な視点や専門知識を持つ開発者が集まることで、問題解決のスピードが上がり、LLMの技術的なイノベーションが加速します。

  • 透明性

Llama 3.2の学習データやモデルの内部構造が公開されていることは、透明性の高さを示しています。利用者はモデルがどのように学習され、どのように機能するのかを詳細に理解することができます。この透明性は、信頼性の向上に寄与し、特に研究者や開発者がモデルを評価し、改良を加える際に重要です。また、生成AIの大きな議題でもある倫理的な問題を回避にもつながります。

  • 無償での利用

Llama 3.2はオープンソースモデルであり、個人利用や商用利用が無料で可能です。この点は特に、リソースが限られたスタートアップ企業や研究機関にとって大きな利点です。高性能なAIモデルを無料で利用できることで、イノベーションの障壁が低くなり、より多くの組織が最新の技術を活用できるようになります。また、クローズドモデルと比較してもAPI料金が不要であるため、運用コストが削減される点も大きな魅力です。

  • カスタマイズ性

Llama 3.2は、オープンソースで公開されているため、ユーザーが独自の用途に合わせてモデルを微調整することができる高いカスタマイズ性を備えています。具体的には、特定のデータセットを使用してモデルを再トレーニングすることが可能です。例えば、医療分野では医療記録データを用いたカスタマイズが可能であり、金融分野では市場データに基づくモデルの微調整が可能です。このような柔軟性は、さまざまな業界やニーズに対応するための強力なツールとなります。

 

LLaMA 3.2の残された課題:日本語対応の欠如と今後の展望

LLaMA 3.2は待望のマルチモーダル対応を実現しましたが、いくつかの課題も残っています。Meta社は、幅広いモデルを提供しており、モバイルデバイスで動作する軽量なLLaMA 3.2 3B、マルチモーダル対応でGPT-4 miniに匹敵する汎用モデルLLaMA 3.2 90B、そしてテキスト処理性能でGPT-4oを超えるLLaMA 3.1 405Bといった多様なLLM(大規模言語モデル)をオープンソースとして公開しています。このことで、研究者や企業が開発に活用できる環境が広がり、発展に寄与しています。

しかし、対応する言語は現在、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語に限られており、日本語が対応していない点は依然として大きな課題です。日本語対応の欠如は、日本語を使用する開発者や企業にとっての障壁となっており、今後の拡張が期待されます。

 

まとめ

  • 多様なLLaMAモデルの展開

  • モバイルデバイス対応の軽量モデル:LLaMA 3.2 1B、3B

  • マルチモーダル対応のオープンソースLLM:LLaMA 3.2 11B、90B

  • テキスト処理で最高性能を誇るLLaMA 3.1 405B

  • 無料で私的利用・商用利用が可能なオープンソースモデル

  • 日本語未対応の課題

今後は、最高性能を持つLLaMA 3.1 405Bのマルチモーダル対応や、日本語対応の実現に大きな期待が寄せられています。オープンソースモデルがクローズドモデルを凌駕する時代が、いよいよ到来するかもしれません。新しい情報が入り次第、記事を随時更新していきますので、引き続きご注目ください。

 

参考文献