Molmo:オープンなマルチモーダルAIモデルの新たな時代

目次:

  1. 導入
  2. 背景
  3. Molmoモデルの強み
  4. 性能評価
  5. 今後の展開

 

1.導入

2024年9月、AI研究の最前線で新たな進展がありました。Allen Institute for AIとワシントン大学の研究チームが「Molmo」ファミリーというマルチモーダルモデルを発表しました。Molmoは、画像と言語を組み合わせたタスクにおいて最高の性能を目指し、オープンウェイトとオープンデータでのトレーニングを実現しました。従来のマルチモーダルモデルは多くが独自仕様であり、その性能を再現するのは容易ではありませんでしたが、Molmoはその問題を解決する画期的なアプローチを提案しています。

 

2.背景

最近のマルチモーダルモデルは、画像の詳細な説明や複雑なビジュアル質問応答の分野で目覚ましい成果を挙げています。しかし、多くの最新モデルは独自仕様のもとで訓練されており、モデルのパラメータ数や訓練データ、ソースコードが公開されていません。このため、科学コミュニティにとっては高性能な視覚言語モデル(VLM)の開発に必要な基礎的知識が不足している状況でした。Molmoは、こうした課題に対してオープンデータとオープンウェイトで最高水準の性能を実現することで、新たな道を切り開こうとしています。

 

3. Molmoモデルの強み

Molmoの最大の特徴は、オープンなデータとパラメータ数の提供にあります。従来のモデルは、プロプライエタリ(独自仕様)なデータや他のモデルから生成された合成データに依存する傾向がありましたが、Molmoはこれらを使用せず、高品質なPixMoデータセットを用いることで、ゼロからのモデル構築を実現しました。

 

・PixMoデータセット

PixMoデータセットは、Molmoの成功の鍵となるデータセットです。人間のアノテーターが音声で画像を詳細に説明し、それをキャプションデータとして使用することで、高密度かつ高品質なデータを収集しました。このアプローチにより、従来のテキスト入力による説明よりも豊富で正確な情報が得られ、モデルの性能を大幅に向上させることができました。

 

・多様なデータセットによる汎用性の向上

Molmoは、PixMo-AskModelAnythingやPixMo-Pointsといった多様なデータセットで訓練されています。これにより、ユーザーが実際にモデルに尋ねるであろう質問への対応や、2Dポイントを用いた視覚的な説明の提供が可能となりました。これらのデータセットは、モデルの幅広い用途への適応力を高め、より自然で人間に近い応答を実現します。

4.性能評価

Molmoファミリーのモデルは、11の学術ベンチマークおよび人間の評価でテストされ、その高性能が実証されました。特に、Molmo-72Bは学術ベンチマークにおいて最高スコアを達成し、GPT-4oに次ぐ高評価を獲得しました。また、MolmoE-1BはGPT-4Vに匹敵する性能を示し、より効率的なモデルとして評価されています。

 

・比較結果

Molmo-72B: GPT-4oと同等の性能を示し、学術ベンチマークでのスコアはトップクラスでした。特に、アンドロイド制御タスクにおいて高い精度を達成し、その応用可能性が示されています。

MolmoE-1B: より小規模なモデルながら、他の競合するプロプライエタリモデルに匹敵する性能を発揮し、幅広い用途での利用が期待されています。

5.今後の展開

2024年9月25日にMolmoのデモと推論コードが公開され、一部のモデルのパラメータ数が提供されました。今後は、PixMoデータセットの詳細やトレーニングコードの公開が予定されており、さらなる科学的探究とオープンソースコミュニティへの貢献が期待されています。これにより、Molmoは学術的研究と実世界での応用を促進し、AI研究の透明性と再現性を向上させることを目指しています。

参考文献:

2409.17146 (arxiv.org)