REKA AIとは?:あらゆるデータ形式に対応するマルチモーダル性能

GoogleとMetaの研究者たちが集まり設立した、わずか22名のスタートアップ企業「Reka」が、大型言語モデル(LLM)であるReka Coreを発表しました。このモデルのパラメータ数は公表されていませんが、128,000トークンのコンテキストウィンドウを持ち、32の言語に対応しています。さらに、Reka AIは3つのモデルを提供しています。最も高性能な「Reka Core」、スピードと性能のバランスを重視した210億パラメータの「Reka Flash」、そしてスピードに特化した70億パラメータの「Reka Edge」です。特に、ハイエンドモデルであるReka Coreについて詳しく紹介していきます。

 

Reka Coreの特徴

1.マルチモーダル性

Reka Coreの最大の特徴は、高いマルチモーダル性にあります。Reka Coreは動画解析、画像解析、音声解析、テキスト解析と、あらゆるデータ形式の解析が可能です。主要LLMの中で、テキストから動画まで幅広いマルチモーダル性を持つのは、Gemini UltraとReka Coreのみです。以下に、そのマルチモーダル性の魅力について詳しく説明します。

 

1.動画解析

Reka Coreは、動画データを解析し、特定のオブジェクトや動作を認識することができます。これにより、異常検知、スポーツ解析、映画の要約、シーン解析など、多岐にわたる応用が可能です。

また、主要LLMの中で動画解析が可能なのはGemini UltraとReka Coreのみであり、ChatGPT-4では動画解析は対応していません

下記図よりPerception Testの結果を比較すると、Gemini Ultraが54.7に対しREKA coreは59.3と上回っており、動画解析において優れた性能を持つことがわかります。

「出典:Reka Core: Our Frontier Class Multimodal Language Model」

2.画像解析

Reka Coreは、画像内のオブジェクトや人物を高精度で認識することができます。医療画像の解析や品質管理の解析などに幅広い分野で応用可能です。

画像解析のベンチマークであるVQAv2では、GPT-4が77.2であるのに対し、Reka Coreは78.1のスコアを示しており、主要LLMの中で最高の性能を誇ります。

 3.音声解析

Reka coreは音声認識機能を持ち、GPT-4oやGemini Ultraと同様に音声解析や音声合成が可能です。これにより、音声認識、テキスト変換、感情分析などができます。32の言語に対応しており、英語だけでなく、日本語など多言語での翻訳も可能です。

 

4.テキスト解析

Reka CoreはGPT-4 Turboと同様の128,000トークンのコンテキストウィンドウを持ち、大量のデータや長文解析が可能です。MMLUやHuman Evalのベンチマークで、ChatGPT-4やGemini Ultraと同等の性能を示しています。

 

2.他のLLMと比べたReka Coreの特徴

  • ウェブブラウジング機能の欠如

Reka coreはウェブブラウジングができず、情報は2023年3月までの情報に限定されています。そのため、最新のデータに基づく回答が必要な場合には、ウェブブラウジングが可能なChatGPT-4oに劣る点があります。

  • 生成時間とハルシネーション

Reka Coreはマルチモーダル対応ですが、画像解析やテキスト分析において、ChatGPTやClaudeと比べて生成時間が長い場合があります。また、情報が古いため、生成された内容に偽情報(ハルシネーション)が含まれることがあります。

  • マルチモーダル性の高さ

以下の6月12日現在の主要LLMにおけるマルチモーダル性の表からわかるように、Reka CoreとGemini Ultraのみが、テキストから動画まですべてのマルチモーダル性を示しています。

単一のLLMでテキスト解析、動画解析、画像解析までできるのはReka Coreと、Gemini Ultraのみです。また、Gemini Ultraは月額2900円のGemini Advancedサブスクリプションが必要ですが、Reka Coreは無料で利用できる点が大きな魅力の一つです。

 

特に多くの人に使われているChatGPTは動画解析ができません。また、情報処理で優れているClaudeは音声、動画解析がともにできません。これからわかるように、Reka Coreは高いマルチモーダル性を持ち、上記の性能で示したように、すべてのスコアで高い能力を持っています。

 

 

動画解析の利点

動画解析機能により、以下のようなスポーツから教育、医療などの幅広い分野での応用が可能です:

  1. 動画の編集や要約
  2. 監視カメラの映像解析によるセキュリティ監査
  3. スポーツ選手の動きの解析
  4. 自動運転システムの開発
  5. 医療分野での手術支援

 

ここで、多くの人に利用されているChatGPTとの比較と、Reka Coreの魅力について説明します。マルチモーダル性において、Reka CoreとGemini Ultraは動画解析の面においてChatGPTより優れています。しかし、ChatGPTの最大の魅力はユーザビリティの高さです。動画解析こそできませんが、他社のLLMと比較して高い性能を誇ります。

 

また、6月12日現在Reka Coreや、Gemini Ultraは画像生成機能がありません。(Gemini は画像生成機能を停止中)一方で、ChatGPTはDALL-Eによる画像生成が可能で、これがChatGPTの魅力の一つです。

さらに、上記の表でも示したように、ChatGPT-4oはどのLLMと比較しても優れた性能を誇ります。Reka Coreを使用した印象としては、入力に対して出力がやや遅く感じられることがありますが、ChatGPTは音声もテキストも高速で生成します。

Reka Coreは動画解析ができるものの、性能面やユーザビリティの高さではまだChatGPTに劣る部分があります。現在、Reka Coreは準備段階で成長中のため、さらなる性能向上や機能追加に期待が寄せられています。

  • API価格

Reka Coreの6月12日現在のAPI価格は以下の通りです。

入力:$10 / 100万トークンあたり

出力:$25 / 100万トークンあたり

これに対し、GPT-4oの価格は、

入力:$5/ 100万トークンあたり

出力:$15 / 100万トークンあたり

と、GPT-4oのほうが価格面で有利です。また、ユーザビリティに優れている点を考慮すると、GPT-4oをお勧めします。しかし、動画入力が必要な場合には、Reka Coreが適しています。

 

まとめ

Reka AIは、動画解析、画像解析、音声解析、テキスト解析のすべてに対応し、高いマルチモーダル性を持つLLMです。ChatGPTと比較すると、性能面やユーザビリティではまだ改善の余地がありますが、動画解析など特定の機能では優れた能力を発揮します。また、今後Reka AIはオープンソース化されず、ChatGPTのようにクローズドソースでの展開が予定されています。今後の発展により、Reka AIの更なる成長と機能向上が期待されます。

現在開発途中であるRekaAIのこれからの発展があり次第、記事を更新していくので楽しみにしていてください。

 

参考文献

「Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models」

「Reka Core: Our Frontier Class Multimodal Language Model」

「Reka Flash: Efficient and Capable Multimodal Language Models」

「Announcing the Latest Addition to Our Leading Multimodal Models – Reka Core」