「Reflection 70B」:自己修正でハルシネーションを防ぐ、GPT-4oを超えたオープンソースAI

 

2024年9月5日、HyperWrite社から発表されたReflection 70Bは、Meta社のLlama 3.1-70B Instructを基にした大規模言語モデル(LLM)です。最大の特徴は、独自のエラー自己修正技術「Reflection Tuning」を搭載している点です。この技術により、生成された内容がリアルタイムで評価され、必要に応じて自動修正されます。また、Claude 3.5 SonnetやChatGPT-4oと比較しても、Reflection 70Bは最高レベルのパフォーマンスを誇ります。Reflection 70bの詳細な機能についてもここで詳しく解説します。

 

最高水準の性能:Reflection 70Bの強みとは

Reflection 70Bは、現時点でのLLMの中でも最高レベルのパフォーマンスを誇るオープンソースの大規模言語モデル(LLM)です。Meta社のLlama 3.1-70B Instructモデルをベースにしており、コンテキスト長は8k、データは2023年12月までの知識で構成されています。さらに、Transformerアーキテクチャを採用しており、効率的で柔軟なタスク処理を可能にしています。

Reflection 70B vs GPT-4o:性能比較とその結果

Reflection 70Bの最大の特徴は、独自の「Reflection Tuning」技術です。この技術により、モデルは生成中にエラーを検出し、自ら修正することができます。これは、他のLLMと比較して大きな利点となっています。

下図より、GPT-4oとの比較では、GPQA、MMLU、HumanEval、Math、GSM8K、IFEvalのすべてのタスクにおいてReflection 70Bが優れた結果を示しています。同様に、LLaMA 3.1-450Bモデルや他のオープンソースモデルと比較しても、あらゆる水準で優れたパフォーマンスを発揮しています。

さらに、Claude 3.5 SonnetやGemini 1.5 Proといった他の大規模モデルとも比較され、Reflection 70Bは依然としてその優位性を保っています。特に、複雑な推論や高精度が求められるタスクにおいて、最も信頼できるモデルとして位置付けられています。

Reflection Tuningとは何か?ハルシネーションを防ぐ仕組み

Reflection Tuningとは、モデルが自身の生成内容をリアルタイムで評価し、誤りを検出して修正する技術です。Reflection 70Bでは、生成されたテキストがこの技術を使って正確性を評価・確認された後にアウトプットされます。

具体的には、モデルは推論の過程を<thinking>タグ内に表示し、最終的に納得した答えが<output>タグに出力されます。このプロセスにより、ユーザーは推論内容を確認し、もう一度見直すことが可能です。また、ハルシネーションを防止するために、<reflection>タグが使われ、モデルが自己修正を行います。もし<thinking>タグで誤りがあった場合、<reflection>タグでそのミスを修正し、より正確な解決策を提案します。

推論プロセスを可視化するReflection 70Bの新機能

Reflection 70Bは、「Step-by-Step Reasoning(段階的推論)」を活用し、1つずつ順序立てて論理的な推論を進めていきます。具体的には、生成されるコンテンツが段階的に進行し、もし途中でエラーが検出された場合には、<reflection>タグを使ってそのエラーを即座に検出し、自己修正を行う機能を備えています。このリアルタイム修正技術により、最終的にユーザーに提供される答えの正確性は大幅に向上しています。

大型モデルReflection 405Bのリリースで期待される性能

LLaMA 3.1-70BをベースにしたReflection 70Bは、オープンソースモデルとして最高水準の性能を誇ります。さらに、現在開発中の大型版モデルであるReflection 405Bは、LLaMA 3.1-405Bを基にして作成され、より大規模かつ高性能なモデルとして、次世代のAI技術をリードすることが期待されています。リリースは近日中に予定されています。

HyperWrite社は、このReflection 70Bを自社の主力製品であるAIライティングアシスタントに統合する計画も進めており、これにより性能向上や新機能の追加が期待されています。

 

Glaiveの合成データで支えられたReflection 70B

Reflection 70Bの開発には、Glaiveが提供するデータ生成技術が大きな役割を果たしています。Glaiveは、合成データを効率的に生成することで、モデルの訓練プロセスを迅速に進め、精度の高いAIモデルを実現しました。

 

商用利用も無料!Reflection 70Bのオープンソースの魅力

クローズドソースモデルは、LLM(大規模言語モデル)の学習データや内部構造を公開せず、使用するたびにAPI料金が発生するという制約があります。それに対して、Llama 3.1ベースのReflection 70Bは完全なオープンソースモデルとして提供されており、無償で私的利用はもちろん、商用利用も可能な点が大きな強みです。このオープン性により、技術の普及や発展が加速され、誰でも自由にモデルを研究し、応用することができます。

さらに、Reflection 70Bの内部構造や学習方法が公開されているため、開発者や研究者が直接モデルにフィードバックを与えることができ、技術コミュニティ全体でモデルの性能や有用性を向上させる取り組みが可能です。この透明性により、LLMの進化がより活発化し、さらなる技術的進展が期待されます。

また、Reflection 70Bは、開発者に親しみやすいプラットフォームであるHugging Faceから無償でダウンロードできるため、アクセスのしやすさも魅力の一つです。

 

まとめ

  • GPT-4oを凌駕する最高水準のオープンソースモデル

  • Reflection Tuningによる自己修正機能を持つLLM

  • 無料で商用利用可能なオープンソースモデル

  • 大型モデルReflection 405Bが翌週リリース予定

現在、最高性能を誇るオープンソースモデル、Reflection 70Bが発表されました。従来のモデルと比較して、論理プロセスが可視化され、ユーザーフレンドリーで、ハルシネーションが大幅に抑制されています。さらに、来週にはより大規模なReflection 405Bがリリース予定です。詳細な記事は近日公開予定ですので、ぜひお楽しみにお待ちください。

 

参考文献