Meta社のLLaMA3: 高性能な大規模言語モデルの特徴と展望

米メタ(旧フェイスブック)が2024年4月18日に大規模言語モデル(LLM)であるLLaMA3(ラマ3)を発表しました。今回の発表では、8B(80億)および70B(700億)のパラメータを持つ2つのモデルが公開されました。同社は昨年7月に先代モデルであるLLaMA2を発表しました。LLaMA3は、400B(4000億)のパラメータ数のモデルも今後展開していくそうです。LLaMA3は先代モデルLLaMA2からの進化を見せるものであり、その進化点についても解説していきます。

「Meta, LLaMA 3」

https://llama.meta.com/llama3/

また、LLMとは何か詳しく知りたい人は以下のリンクを参照してみてください。

「LLMとは?」

https://allai.jp/llm/

 

1.LLaMA3の進化と将来展望

  • LLaMA3の内部構造
  • 性能の向上
  • 今後の展望
  • まとめ

 

2.LLaMA3の内部構造

LLaMA3も、先代モデルと先々代モデルと同様に、Transformerアーキテクチャを採用しています。TransformerはChatGPTやGoogleのGemeniにも採用されています。そして、LLaMA2では、Grouped-Query Attention(GQA)が追加されました。そして、LLaMA3では15兆を超えるトークンで事前学習されており、LLaMA2と同様にGQAが採用されています。このGQAは、性能は良いが遅いMulti-head Attentionと、速いが性能が悪いMulti-query Attentionに対する性能と速度の両方を兼ね備えた機構です。

そして、LLaMAは低サイズ高性能の改革をしてきました。しかし、LLaMA3では、今までのような低サイズ高性能の8B,70Bパラメータのモデルだけでなく、400B大型モデルも開発しています。LLaMAの特徴である、「大量の学習データを読み込ませることで、小さなモデルでも高い性能を発揮する」といった考えのもとLLaMA3は400Bモデルの開発に取り組み、リソースの調整も行っています。コンテキストの長さは8kと先代モデルの4kの2倍になっており、LLaMAの学習データが先代と比べて大幅に増えていることがわかります。

 

3.性能の向上

LLaMA3は、LLaMA2と比べて数点の改良が加わっています。まず、コンテキストの長さが8kに拡張され、トークンの数も15兆と増加しました。これにより、より広範囲な文脈を考慮して自然な応答が可能となりました。さらに、効率的な言語エンコーディングのために、トークナイザーが128,000トークン(以前は32000トークン)の語彙を持つようになり、これによりモデルのパフォーマンスが飛躍的に向上しました。

また、トレーニングデータセットはLLaMA2よりも約7倍大きく、LLaMA2と比べて4倍のコードを含んでいます。そして、多言語に対応するため、LLaMA3の事前トレーニングデータセットの5%以上が30以上の言語をカバーするデータで構成されています。

 

LLaMA3は現在入手可能な最高のクローズドモデルと同等の性能を持つ最高のオープンソースモデルを目指して開発されています。つまり、ChatGPT-4やGemeni proと並ぶ性能のオープンソースモデルを目指しています。

 

次に、LLaMA3と先代モデルであるLLaMA2の性能比較を行います。

下記図からMMLUからCommonSenseQAなどのすべての基準でLLaMA2を上回っていることがわかります。このことから、トークンを含めた性能が大幅に向上していることが裏付けられます。

「LLaMA2,3の各評価基準における性能比較」

https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

また、各評価基準についての詳細は下記リンクを参照してみてください。

https://github.com/meta-llama/llama3/blob/main/eval_details.md

 

次に、ClaudeやChatGPTをはじめとした主要な現在のLLMと比較してみます。下記図より、LLaMA3はGoogleのGemeniやClaude、ChatGPTなどの最新のLLMと同等の性能を示しています。

また、1800個のプロンプトが含まれた独自の人間評価セットを用いた (human evaluation)では、LLaMA3はClaudeやMistral、また先代のLLaMA2だけでなく、Chat GPT-3.5よりも高い評価を得ていることがわかります。LLaMA3では、推論、コード生成、命令などの機能が大幅に向上し、LLaMA2からの大幅な改善が行われていることがわかります。

https://ai.meta.com/blog/meta-llama-3/

また、各評価基準についての詳細は下記リンクを参照してみてください。

https://github.com/meta-llama/llama3/blob/main/eval_details.md

 

  • 今後のさらなる展望

Meta社は最新のモデルであるLLaMA3の開発において、400Bを超えるパラメータ数を持つモデルのトレーニングに取り組んでいます。Meta社は今後の展望として、マルチモーダルな性質を持ちながらも多言語に対応し、より長いコンテキストを処理する能力や、推論やコーディングのパフォーマンスを持続的に向上させていくことが挙げています。

さらに、Meta社はLLaMA3を活用した最新自然言語Meta AIの開発を進めています。このプロジェクトは、ChatGPTと同様の機能を提供し、プラットフォーム上でのフィード、チャット、検索、画像生成などが無料で利用可能です

 

また、LLaMA最大の特徴であるオープンソース性を活かし開発者からのフィードバックを受けて製品の有用性を向上させる取り組みを行っています。このオープンソース性により、より優れた製品や安全性の高い製品の開発が可能となり、イノベーションの促進や市場全体の健全化に寄与しています。オープンソースとは、無償で私的利用、商用利用可能のことであり、ChatGPTなどの多くの大規模言語モデル(LLM)がクローズドであるのと対照的に、LLaMA3はこの点で大きな魅力を持っています。

さらに、Facebook、Instagram、WhatsApp、MessengerなどのプラットフォームでMeta AIを利用することで、AIを利用してより賢く、クリエイティブに活用することができます。

現在(2024年5月8日)では、日本での利用はできませんが、英語版はオーストラリアやカナダなどの数か国で利用可能になります。

 

  • まとめ

Meta社のLLaMA3は小規模のパラメータ数にも関わらず、高性能な大規模言語モデルとして注目されています。先代のLLaMA2と比べても、学習データの改善が大幅に行われ、性能面で大きな進歩が見られました。他社の大規模言語モデルと比較しても、ChatGPT-3.5やClaudeよりも優れた評価を得ています。

LLaMA3はオープンソース性を重視しており、フィードバックを通じて性能向上に貢献しています。MetaAIやFacebook、Instagramなどのプラットフォームでの使用が今後増えていくことが期待されています。

自然言語処理の分野では、ChatGPTを超える最高水準のオープンソースモデルを目指して、LLaMA3の開発が進められています。そして、LLaMA3は現在入手可能な最高のクローズドモデルと同等の性能を持つ最高のオープンソースモデルを目指して開発されています。

 

また、今後、より高性能な400BモデルLLaMA3に関する論文が発表されることも楽しみです。新しい情報が入り次第、すぐに再掲されるので、要チェックしてくださいね。

 

これからも、LLaMAやChatGPTについての情報をどんどん更新していくので、定期的にチェックしてみてください。

「allai.jp」 https://allai.jp/chatgpt/

 

 参考文献
  • Meta, Build the future of AI with Meta Llama 3

https://llama.meta.com/llama3/

https://ai.meta.com/blog/meta-llama-3/

Meta Llama 3の紹介:これまでで最も高性能でオープンな大規模言語モデル

  • GitHub

https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

https://github.com/meta-llama/llama3/blob/main/eval_details.md