拡散型技術で実現する未来―Mercuryが変える生成AIの常識

Mercuryは、Inception Labsが発表した新世代の拡散型大規模言語モデル（dLLM）です。

大きなトークン数の入出力に対して高速かつ高精度の回答を生成でき、LLMの新しい可能性を提示しています。

この記事では新型LLMである拡散大規模言語モデル、Mercuryについて詳しく解説します。

拡散型言語モデルは、従来の「左から右へ一トークンずつ生成する」自己回帰型モデルとは異なり、以下の特徴を持ちます：

・粗から細への生成プロセス：初めはノイズから始まり、数回の「デノイジング」ステップを経て出力が洗練される。このプロセスにより、生成過程で誤りやハルシネーション（不正確な情報）を修正しやすくなります。

・並列的なトークン編集：生成時に出力全体を並行して改善できるため、従来の逐次的生成方式に比べ、より効率的で柔軟な生成が可能です。

Mercuryの主な特徴は以下の通りです：

（１）高速生成:

NVIDIA H100などの一般的なハードウェア上で1,000トークン/秒以上の生成速度を実現（Mercury Coder Miniは約1,109トークン/秒、Smallは約737トークン/秒）。

従来の自己回帰型モデル（最大200トークン/秒程度）と比較して、最大10倍の高速化を達成しています。

（２）Diffusionアプローチの採用:

出力を一度に生成するのではなく、粗いアウトプットから段階的に洗練することで、エラー修正や合理的な推論が可能に。

トークン生成順序に縛られず、必要に応じたインフィル（中間補完）や編集が可能です。

（３）汎用性と互換性:

dLLMは既存の自己回帰型LLMと同様のユースケース（コード生成、顧客サポート、エージェントシステムなど）にそのまま利用できるドロップイン置換として機能。

APIおよびオンプレミスでのデプロイが可能で、既存のデータセットやファインチューニング（SFT、RLHF）のパイプラインとも互換性を持ちます。

（４）コード生成に特化:

Mercury Coderは、従来のコード生成モデル（例：GPT-4o Mini、Claude 3.5 Haiku）に比べ、速度と精度の両面で優れた性能を発揮しており、実際の開発現場でも好評です。

ここではベンチマーク評価などによる数値データでMercuryの性能を見ていきます。

（１）ベンチマーク比較:

HumanEval、MBPP、EvalPlus、MultiPL-E、LiveCodeBench、BigCodeBench、Fill-in-the-Middleなど複数のコード生成ベンチマークで評価され、Mercury Coderは高い品質指標を保持。

他の先端モデルと比較して、Mercuryは圧倒的な生成速度（例：Mercury Coder Miniで約1,109トークン/秒）を誇りながら、品質面でも遜色ないかそれ以上の結果を示しています。

（２）開発者の評価:

Copilot Arenaなどの評価プラットフォームでは、Mercuryのコード補完が既存モデルと比較して好評を博しており、特に高速な応答と正確性が評価されています。

Mercuryは現在一般ユーザーにも公開されています。

ここでユーザー登録をすれば無料で利用できます。

また、Mercuryは従来の自己回帰型モデルと同じユースケースに対応できるドロップイン置換として設計されており、API経由で利用するほか、オンプレミスでのデプロイも可能です。既存のハードウェアやファインチューニング（SFT、RLHF）パイプラインとの互換性も確保されています。

Mercuryのような拡散型言語モデルは今後開発が進み、新モデルが多く登場するでしょう。

直近のLLMの進化は高性能化から低コスト化へ移り始めているように感じます。

その中で拡散型言語モデルは欠かせない存在になるでしょう。開発者たちの間では拡散型言語モデルと従来の自己回帰型のハイブリッド言語モデルが近く登場すると目されています。

日ごとに高性能化、高効率化していくLLMは今後どのような進化を遂げるのか、まだまだLLMの進化から目が離せません。

参考文献：