YiモデルがもたらすAI革新：消費者向けハードウェアでも高性能を実現

導入
Yiモデルの強み
性能評価
まとめ

１．導入

AI技術の進展が著しい中、世界中の企業が生成AIモデルの開発に注力しています。特に、大規模言語モデル（LLM）の分野では、米国のOpenAIによるGPTシリーズやMetaのLLaMAなどが広く注目されています。こうしたグローバルな競争の中、中国のAI開発企業である01.AIも、新たなAIモデル「Yi」を発表しました。

Yiモデルは、6Bおよび34Bの事前学習済み言語モデルをベースに、さまざまな応用に対応できるよう設計されており、データエンジニアリングに基づいた高品質なデータ処理や、消費者向けデバイスでも動作可能な柔軟性が特徴とされています。また、視覚とテキストの統合に対応するマルチモーダル機能や、長文コンテキスト処理に対応できる能力も備えており、これにより、幅広いタスクでの応用が期待されています。

この記事では、Yiモデルの特徴やその技術的アプローチを取り上げ、他のAIモデルとの比較を通じて、その強みや課題を考察します。

２． Yiモデルの強み

Yiモデルの最も顕著な特徴の一つは、データエンジニアリングに非常に力を入れている点です。1兆トークンの大規模なデータセットを使用し、データの重複排除やクリーンフィルタリングが徹底されており、低品質なデータを除外しています。
34Bモデルは性能とコストのバランスが優れています。GPT-3.5と同等のパフォーマンスを発揮しながらも、RTX 4090のような消費者向けのハードウェアでも動作可能です。さらに、8ビットや4ビットの量子化を行うことで、推論時のメモリ使用量や計算コストが大幅に削減されています。
Yiモデルのファインチューニングは、少量の（10K以下）データに対して非常に精密に行われています。このデータは複数回の反復プロセスを通じて、機械学習エンジニアによって手作業で選別・改良されています。この高品質のデータ選別により、他の大量データを使用したモデルよりも効果的に性能を向上させることができています。
Yiモデルは、最大200Kトークンの長文コンテキストに対応できるようにトレーニングされています。これにより、非常に長い文章や複雑な文脈の理解が可能となり、特に多文書質問応答タスクなどで強みを発揮します。この能力は、現実世界の情報検索や高度な推論タスクで重要です。
Yiモデルは、言語モデルとしての能力に加え、画像認識を含むマルチモーダルな機能も備えています。具体的には、Vision Transformer (ViT)を活用し、テキストと画像の両方を処理・統合する能力を持っています。これにより、画像に基づく質問応答や詳細な画像説明などのタスクに対応でき、汎用性の高さが特徴です。
Responsible AI Safety Engine (RAISE)を導入することで、事前学習やモデルの調整、デプロイの段階でモデルの安全性を確保しています。特に、フィルタリングやデータの精査において、安全でないコンテンツや倫理的に問題のあるコンテンツを排除する対策が取られています。
トレーニングや推論において、計算資源の効率的な管理が可能です。Paged Attentionや動的バッチ処理を用いることで、メモリの利用効率が最適化され、特に長文コンテキストの処理が高速化されています。また、クロスクラウドのスケーラブルなインフラにより、数千台のGPUを活用した大規模なトレーニングが実現されています。

３．性能評価

これらの表を見ると、いくつかのベンチマーク評価でGPT-3.5やLlama2を上回る性能を発揮していることがわかります。

４．まとめ

Yiモデルは、オープンソースとして公開され、コミュニティでの利用が可能です。特に、消費者向けデバイスでの利用に適しているため、プライバシー保護やコスト効率の観点からも強力なソリューションとなっています。AIエージェントの構築やローカルで実行可能なチャットボットの開発が容易になります。

参考文献

2403.04652 (arxiv.org)

Tokkyo.Ai機能のご案内

１．導入

２． Yiモデルの強み

３．性能評価

４．まとめ

参考文献