DBRX:GPT-4に匹敵する!?LLM

AIの進化が続く中、特にLarge Language Model(LLM)の分野で目覚ましい進歩が見られます。OpenAIのChat GPTに端を発し、多くの企業や大学がLLM開発に力を入れています。2024年3月27日、新しいLLMが発表されました。本記事では、そのLLMであるDBRXをご紹介します。

  • DBRXとは

DBRXはDatabricks社が開発したLLMで、総パラメーター数は132Bとトップレベルになっています。推論速度が速く、コーディングが得意なのが特徴です。

  • Databricksによる性能調査

DatabricksがDBRXとほかの主要なLLMを様々な形で比較調査を行っているのでその結果を見てみましょう。

null

このグラフは言語理解、プログラミング、数学の理解力をそれぞれのベンチマークで評価したものです。比較するLLMはMeta社のLlama2-70B、Mistral AI社のMixtral、xAI社のGrak-1です。どれも新しい高性能のLLMですが、DBRXはすべての評価で最高値をとっています。

さらにChat GPTやClaude、Geminiなどのクローズドモデルとの比較でも、Databricksが調査したほぼすべてのベンチマークにおいてDBRXがGPT3.5を上回り、

いくつかのカテゴリでGemini1.0proにも引けを取らない性能を示しました。

推論効率について説明します。上のグラフは、NVIDIA TensorRT-LLMを使った最適化サーバーでDBRXを実行した際の効率を示しています。これは、同時に複数のユーザーがアクセスする状況を再現しています。毎秒1人の新規ユーザーが追加され、各リクエストには約2000トークン、各レスポンスには256トークンが含まれます。

MoEモデルは、総パラメータ数の割に推論が高速です。DBRXも例外ではなく、132Bの非MoEモデルより2~3倍のスループットがあります。

一般的に、モデルが大きいほど質が高くなりますが、小さいモデルの方が推論効率は高くなります。MoEアーキテクチャを使用することで、このトレードオフが改善されます。例えば、DBRXはLLaMA2-70Bよりも高品質でありながら、推論スループットは最大2倍速いです。DBRXは8ビット量子化で最適化されたサービングプラットフォーム上で、毎秒最大150トークンの推論が可能です。

  • 利用方法

Huggingface、またはGithubのいずれかのサイトにアクセスすると無料で利用できます。

DBRX Instruct – a Hugging Face Space by databricks

GitHub – databricks/dbrx: Code examples and resources for DBRX, a large language model developed by Databricks

まとめ

DBRXは、Databricks社が提供する最先端のオープンLLMであり、他の高性能LLMを凌ぐ性能を持っています。これにより、より高速で高品質な推論が可能となり、コーディングタスクにも優れた能力を発揮します。無料で利用可能なため、多くの企業や研究者がその恩恵を享受できるでしょう。

参考文献

DBRXのご紹介:最新のオープンLLM | Databricks Blog