OpenAIは2025年2月2日(米国時間)に、「Deep Research」を発表しました。これは、最新のエージェント機能で、ユーザーのプロンプトに基づいて、インターネット上の情報源を検索・分析・統合して、非常にハイレベルなレポートを作成できる機能となっています。この記事では、Deep Researchについて、公式ブログをもとに詳しく解説していきます。o3に関連する記事は、以下をご覧ください。
目次
1.Deep Researchの機能とは
OpenAIが発表した最新のエージェント機能「Deep Research」は、ユーザーのプロンプトに対して、外部の情報源やPythonツールなどを自律的に用いて、高度な内容の調査資料を作成できる機能となっています。これまでのChatGPTとは異なり、何百ものオンラインの情報にアクセスし、検索、分析、さらには情報の統合までを行ってくれる点が魅力的です。従来は人間が何時間もかけて行っていた作業を、わずか数分で完了できるようになります。
Deep Researchに利用されているモデルは、近日公開予定のOpenAI o3モデルのバージョンとなっており、特にWebブラウジングとデータ分析に最適化されています。Deep Researchは、現在はProプランのユーザーのみが利用可能となっており、今後はPlusユーザーやTeamユーザーも利用可能になっていくとのことです。
2.Deep Researchの仕組み
Deep Researchは「エンドツーエンド強化学習(end-to-end reinforcement learning)」と呼ばれる手法で開発されています。これは、システム全体(入力から出力まで)を一つの大きなモデルと捉えた開発手法です。従来の手法では、入力処理、特徴量抽出、意思決定などの段階ごとに最適化されていましたが、エンドツーエンド強化学習では、タスク全体を最適化することができます。
また、Deep Researchには、高度なWebブラウジング機能と論理的に推論する能力が備わっています。例えば、Webサイト上の情報を探索し、必要なデータを見つけるための一連の操作(スクロールやクリックなど)や、論理的な推論を行うことで、ユーザーから与えられた問題を解決します。
こうした一連の流れは、次のような技術によって支えられています。
複雑な行動計画の設計
タスクを達成するために、複数のステップに分割した「行動の軌道」を計画し、実行できるようになりました。この過程では、ステップごとに環境の情報(Webサイトや添付ファイルの内容など)を取得し、状況に応じた最適な行動を選択していると考えられます。
バックトラッキングとリアルタイム反応
万が一、Webサイトから期待していた情報が得られない場合、過去の状態に戻って、再び計画を立てます(バックトラッキング)。そのような意味で、非常に柔軟性に富んだシステムであると言えます。また、外部やユーザーからの新しい情報に対して、リアルタイムで反応して、行動計画を再検討する技術も採用されています(リアルタイム反応)。
多機能の統合
Deep Researchが持っている多機能のひとつとして、ユーザーアップロードファイルの閲覧機能があります。さらにはPythonツールを使用したグラフの描画やプログラミングによる反復処理なども可能となっています。これにより、データの可視化や解析結果の説明が容易になります。また、外部コンテンツを応答内に埋め込み、さらにその引用元などを根拠として提示することができるため、信頼性も高めています。
3.ベンチマーク評価
Deep Researchのベンチマーク評価についても、確認していきましょう。これまでのLLMは、GPQAやMMLUなどの一般的なベンチマークで評価されてきましたが、近年ではLLMの進化が著しく、従来のベンチマークでは90%を超える精度に達成することも稀ではなくなってきています。そのため、最先端のLLMを適切に評価するベンチマークテストが追い付いていないといった課題もあります。その中でも、最先端のLLMにも適用可能な難易度の高いベンチマークの評価が公開されていますので、詳しく見ていきましょう。
Humanity’s Last Examによる評価
「Humanity’s Last Exam(HLE)」は「人類最後の試験」と和訳され、2025年1月24日に公開された、非常に難易度の高いベンチマークテストとなっています。このベンチマークのデータセットは、100を超える科目に渡る3000の難易度の高い質問で構成されています。
従来のベンチマークとHLEの比較
上の図は、最先端モデルにHumanity’s Last Examを適用した結果を表しています。これまでの従来のベンチマーク(GPQAやMMLU)では、軒並み高い精度を達成していますが、HLEではほとんどもモデルで10%に満たない精度となっており、非常に難易度が高いベンチマークテストであることが伺えます。
今回、OpenAIが発表した「Deep Research」を搭載したモデルの評価を以下の表に示します。これまでのOpenAIの最先端モデルo1は9.1%の精度でしたが、先日発表されたばかりのo3-miniモデルでは、ともに10%を超える精度となっています。注目すべきは、赤枠で囲まれた「OpenAI deep research」の結果です。これまでのLLMをはるかに上回る26.6%の精度を達成していることがわかります。これは、Deep Researchが「高度なWebブラウジング機能」と「Pythonツールによる高度な数値計算能力」が大きく関係していると考えられます。
Humanity’s Last ExamによるLLMの評価
GAIAによる評価
「GAIA(General AI Assistants)」はAGI(汎用人工知能)のアシスタント性能を測るベンチマークであり、推論、マルチモダリティ処理、Webブラウジング、一般的なツールの使用の習熟度などの能力を評価します。このベンチマークテストは、人間の回答者で92%の精度を達成できるほど、難易度は低いものとなっているものの、プラグインを備えたGPT-4で15%の精度であるなど、機械にとっては必ずしも容易ではないベンチマークテストとなっています。
OpenAIが発表した「Deep Research」を搭載したモデルの評価を以下の表に示します。
GAIA(General AI Assistants)によるLLMの評価
上の表の上段は、これまでの最先端モデルの評価を表しています。GAIAには、いくつかのレベル設定があるのですが、Deep Researchは全ての難易度において、これまでの最先端モデルを上回る性能を示したことが確認できます。二段目は試行が一回のみ、下段は最大試行回数を64回まで拡張した場合の結果を示しています。このことから、何度も試行を繰り返すことでモデルのパフォーマンスが向上することが確認できます。
4.Deep Researchによる新たな知見とは!?
Deep Researchの発表にあたり、AIに関する2つの新たな知見が得られました。それぞれの知見について詳しく見ていきましょう。
専門家レベルのタスクの達成度
Deep Researchは、多くの分野に渡って手動による面倒な調査を効率化したと評価されました。また、タスクを成功するまでのツールが呼び出された回数と成功率を示したグラフ(下図)によれば、ツールの呼び出し回数(横軸)が増えるにつれて、タスクの成功率(縦軸)が向上したことがわかります。特に40~60回の範囲で急激に成功率が上昇し、その後は緩やかに上昇していくことがわかります。このことから、より良い結果を得るためには、「AIに考える時間を与えること」が重要であることが示唆されました。
ツールの呼び出し回数とタスクの成功率を示すグラフ
AIと人間の視点の違い
さらに、専門レベルのタスクの成功率と経済的価値(推定)および、専門レベルの成功率と推論時間の関係を示すグラフから、「AIは人間とは異なる基準でタスクの難しさを感じている」と言えることがわかりました。例えば、データ入力・整理などは人間にとっては時間がかかりますが、AIはこの類のタスクを素早く実行することができます。逆に、専門的な知識や経験で人間が素早く判断していることであっても、AIは複雑なデータの統合や理解が必要になるため、難しいと感じている可能性があるのです。
5.まとめ
この記事でご紹介したDeep Researchの特徴を以下のようにまとめました。
- o3モデルを備えたDeep Research機能を公開!
- 情報の検索・分析・統合を自律的に実行できるエージェント
- 現在はProプランユーザーのみ利用可能
- WebブラウジングやPythonツールの活用により、最先端の性能を示した
- アシスタント性能を測るベンチマークでも、最先端モデルを凌駕!
OpenAIがAGI(汎用人工知能)の実現に向けて、また一歩進みました。OpenAIの最新動向は、o3モデルと合わせてチェックしてみてください。