「考えるAI」「o1」が現実に：QWQ-32-previewとLLaVA-o1が描く可能性

2024年の11月「SoftBank World 2024」で、ソフトバンクグループ代表の孫正義氏は、AIの進化について「理解する」から「考える」段階への飛躍について講演しました。その中心的な存在として注目されたのが、OpenAIの「o1」モデルです。o1は、従来のAIが行う単なる情報処理を超え、人間のように「考える」能力を備えた革新的なAIモデルとして話題を集めました。

その一例として、11月27日、中国アリババグループの研究部門であるアリババ研究院（Alibaba Research）は、高度な推論能力を持つ大規模言語モデル「Marco-o1」を発表しました。さらに、Metaが開発した「Llava-o1」など、ChatGPTやo1の技術的な影響を受けたさまざまな大規模言語モデル（LLM）が次々と登場しています。

この記事では、これら新しいLLMがもたらす可能性と、o1モデルの技術的な詳細をわかりやすく解説していきます。

「理解」から「考える」へ：GPTとo1の違い

2024年に開催された「SoftBank World 2024」では、AI技術が「理解する」段階から「考える」段階へと進化する大きな転換期にあることが示されました。その象徴的な存在として注目を集めたのが、OpenAIの「o1」モデルです。

o1は、AIがこれまでの「知る」「理解する」段階を脱し、「考える」さらには「発明する」能力を持つ段階への進化を体現しています。この進化により、AIは単なる情報処理ツールの枠を超え、人類の想像を超える新たな知識やアイデアを生み出す存在となる可能性を秘めています。

GPTの「理解する」段階

GPTは事前学習（Pre-training）を基盤に、膨大なデータから言語的なつながりやパターンを学習しています。この能力により、質問に対して適切な回答を生成することが可能です。しかし、GPTはあくまで「言葉のつながりを理解している」だけであり、自ら「考える」ことはしていません。

o1の「考える」段階への進化

一方、o1はGPTとは異なり、事前学習を意味する「GPT」の文字がその名称に含まれていません。これはo1が全く新しいモデルであり、「考える」能力を備えていることを象徴しています。o1は従来のGPTモデルを超え、「理解」から「考える」段階へと進化しており、表面的な理解にとどまらず、情報を深く処理して複雑な問題に対応できる能力を持っています。

思考の深さを重視

従来の検索エンジンやGPTモデルは、処理速度の向上が主な焦点となっていました。しかし、o1では速さよりも「深さ」を重視しています。このモデルは、時間をかけて複雑な問題に取り組むことで、従来のAIには難しかった高度な推論や問題解決を実現しています。例えば、ある課題に対して75秒間をかけて回答を導き出したケースは、o1がいかに深く考えているかを象徴しています。

o1の3つの技術的詳細

1.思考の連鎖（Chain of Thought, CoT）

思考の連鎖（Chain of Thought, CoT）は、大規模言語モデル（LLM）の推論能力を向上させる技術です。CoTは、LLMが最終的な回答を直接提供するのではなく、中間的な推論ステップを生成することで複雑な問題を解決することを可能にします。CoTは、問題を複数のステップに分割し、各段階で論理的に処理することで、複雑な問題を効率的に解決します。この手法により、モデルは算術、常識推論、問題解決タスクなどの幅広い分野で効果を発揮します。これにより、LLMは複雑なタスクにも一貫性を持って対応し、より精度の高い回答を生成することが可能になります。

簡単に言うと、以下のようにo1は動作します

問題文を読む: 問題の内容を正確に理解する。
何を聞かれているか考える: 解くべき課題を明確化する。
必要な計算式を考える: 解法を検討し準備する。
計算する: 選んだ解法に基づいて計算を実行する。
答えを出す: 計算結果を整理して最終的な解答を導く。

出典：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

2.モンテカルロ木探索（Monte Carlo Tree Search, MCTS）

モンテカルロ木探索（Monte Carlo Tree Search, MCTS）は、ゲームや意思決定問題において、最適な手順や行動を見つけるためのアルゴリズムです。MCTSは、シミュレーションを繰り返すことで、多くの選択肢から最適な行動を見つけるアルゴリズムです。難しい計算問題を解くときに「まずこうしてみて、次にこれを試したらどうかな？」といろんな方法をシミュレーションして、正しい答えを見つけます。

MCTSの4つのステップ

選択（Selection）

既存の木構造内で、評価値が高いと見なされるノードを選びます。

展開（Expansion）

選択したノードから新たな子ノードを生成し、探索範囲を広げます。

シミュレーション（Simulation）

新たに展開したノードからゲーム終了までをランダムに進行させ、結果を評価します。

バックプロパゲーション（Backpropagation）

シミュレーションの結果を元に、選択した経路上の各ノードの評価値を更新します。

出典：https://arxiv.org/pdf/2209.14940

3.強化学習（Reinforcement Learning）、自己反省メカニズム

強化学習は、多様な解決策を探索し、その中から最適な解を見つけるための手法です。これにより、モデルは複数の選択肢を評価し、最善の行動を選択する能力を獲得します。さらに、モンテカルロ木探索（MCTS）と組み合わせることで、エージェントは膨大なシミュレーションを実行し、その結果に基づいて報酬ｒを最大化する行動戦略ｓを構築します。さらに、エージェントはこれらの情報を基に次回以降の行動選択を改善し、最終的に最適な行動戦略を学習します。このサイクルは「状態 → 行動 → 報酬 → 次の状態」という流れで繰り返され、試行錯誤を通じて進化します。

この学習プロセスは、エージェントが環境内で行動を繰り返し、得られる報酬を基に次の行動を改善していく「試行錯誤型の学習」です。これにより、エージェントは環境への適応能力を高め、より効率的で効果的な行動を選択することが可能になります。

自己反省メカニズムは、AIモデルが自身の出力や行動を評価し、誤りや改善点を特定して修正するプロセスを指します。この手法により、モデルは自律的に学習し、性能を向上させることが可能となります。推論過程での再評価を行うことで、より深い理解と正確な結論に至ることを目指しています。モデルが自らの誤りを認識し、思考プロセスを改善するための学習手法です。これにより、モデルは試行錯誤を通じて最適な解決策を見つける能力を向上させます。このメカニズムのもう一つの特徴は、推論トークンの活用です。人間の思考プロセスを模倣し、段階的に論理を組み立てるこの手法により、モデルの思考過程が可視化され、透明性が向上します。これにより、AIの説明可能性（Explainability）の向上に寄与しています。

自己反省メカニズムでは、まずモデルが自身の出力を評価し、「この回答で正しいか？」「他に良い方法はないか？」と問いかけます。これに基づいて誤りや改善点を特定し、修正プロセスに移行します。たとえば、誤りが見つかった場合、その原因を探り、次回の解答生成に反映させます。さらに、強化学習を活用することで、モデルは自己生成したデータを基に修正能力を高め、次第に精度を向上させていきます。

O1に匹敵する次世代モデルの登場

QWQ-32-preview：技術分野を牽引するオープンソースモデル

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

アリババクラウドにより11月28日に発表されたQWQ-32-previewは、OpenAIのo1モデルに匹敵する高度な性能を持つ大規模言語モデル（LLM）として注目されています。このモデルは、特に数学やコーディングなどの技術分野において優れた能力を発揮しますQWQ-32-previewの最大の特徴は、Apache License 2.0のもとでオープンソースとして公開されている点です。

主な特徴

パラメータ数: 325億（32.5B）。これは、モデルの知識量と問題解決能力を示す指標です。
レイヤー数: 64層。モデルがより複雑なパターンを学習し、高度な推論を可能にします。
コンテキストの長さ: 最大32,768トークンを処理可能。これにより、広範囲な文脈を考慮した精密な解析が可能です。

強みと課題

このモデルは、ベンチマークテストで、QWQ-32-previewは数学やプログラミング（Math、Code）の分野でo1-previewに匹敵する性能を示しています。そのため、複雑な数学的計算やプログラミングタスクに対応できる点が大きな強みです。一方で、日常的な常識推論や言語の微妙なニュアンスを理解する能力には課題が残されています

出典：https://qwenlm.github.io/blog/qwq-32b-preview/

marco-o1：高度な推論を実現するAIモデル

https://huggingface.co/blog/mikelabs/marco-o1-towards-open-reasoning-models-open

Marco-o1は、アリババクラウドにより、2024年11月27日に公開された推論能力に特化したAIモデルです。このモデルは、Monte Carlo Tree Search（MCTS）、Chain of Thought（CoT）、自己反省メカニズムといった先進技術を統合しており、その構造はo1-previewモデルと非常に類似しています。

データセットとトレーニング

Marco-o1は、以下のデータセットを使用してトレーニングされています：

Open-O1 CoTデータセット: 一般的なCoT（Chain of Thought）データセット。
Marco-o1 CoTデータセット: MCTSを活用して生成された合成データセット。
Marco-o1 Instructionデータセット: 推論タスク向けのカスタム指示データのコレクション。

これらのデータセットを活用することで、Marco-o1は複雑な推論タスクに対応する高度な能力を獲得しています。

Marco-o1の革新的な機能の一つに、「リフレクション（自己反省）メカニズム」があります。この機能により、モデルは推論中に自らのプロセスを再評価し、潜在的なエラーを特定します。具体的には、モデルが「待ってください。間違いを犯した可能性があります。最初から考え直す必要があります。」というフレーズで自らを促すことで、推論手順を改良する仕組みです。このプロセスを繰り返すことで、より正確な推論結果を生成します。

ライセンスはこちら：Apache License Version 2

llava-o1：画像認識と言語処理を融合した画像AI版o1

https://github.com/PKU-YuanGroup/LLaVA-CoT?tab=readme-ov-file

LLaVA-o1は、MetaのLlama-3.2-11B-Vision-Instructを基盤とした画像認識と言語処理を融合させたモデルです。このモデルは、従来の視覚言語モデル（Visual Language Model, VLM）の課題を克服するために設計されています。

従来のVLMは、画像を入力としてそのまま回答を生成する仕組みを採用していましたが、複雑な推論を必要とする質問には十分に対応できないことが課題でした。一方で、LLaVA-o1は、これらの問題を解決するために設計された画像版のo1モデルです。Chain of Thought（CoT）技術を活用し、画像情報をもとにより高度な推論を可能にしました。LLaVA-o1は、推論プロセスを「要約」「キャプション」「推論」「結論」の4つの段階に分けて実行します。この段階的なアプローチにより、モデルは情報を段階的かつ論理的に処理し、人間に近い形で正確な回答を導き出します。LLaVA-o1は、オープンソースモデルとして公開されています。この特性により、研究者や開発者が自由にモデルを利用し、さらなる改良や新しい応用に活用することが可能です。

推論プロセスの4段階

LLaVA-o1では、以下の4段階に分けて画像の推論を進めます：

要約: 画像の概要を把握。
キャプション: 具体的な内容をテキストで説明。
推論: 質問に対して論理的に回答を組み立てる。
結論: 最終的な回答を生成。

他社製o1モデルの高性能を支える「知識の蒸留」技術

https://arxiv.org/pdf/2411.16489

これらの他社製o1の強力な性能は、知識の蒸留によるものです。知識の蒸留は、大規模な言語モデル（LLM）の持つ能力を、小型モデルに効率的に移行するための重要な技術です。この手法を用いることで、o1は小型モデルにも高度な推論能力を実現させています。

知識の蒸留は、教師モデル（この場合はo1のような大規模モデル）が持つ知識を、生徒モデル（より小型のモデル）に伝えるプロセスです。この技術により、小型モデルでも教師モデルに匹敵する性能を発揮することが可能になります。

しかし、この技術だけでは限界があります。知識の蒸留は基本的に親モデルの能力を模倣するプロセスであり、革新的な推論モデルを生み出すには、独自のオリジナリティや高度なモデルチューニングが不可欠です。

o1のAPIを活用した単純な蒸留
o1のAPIを通じて得られる知識を小型モデルに転移することで、より効率的に学習が進められます。
教師あり微調整との組み合わせ
蒸留データを用いて生徒モデルを微調整することで、複雑な数学的推論タスクにおいても優れたパフォーマンスを発揮しています。

複雑な問題に対しても、蒸留によって微調整されたモデルがo1-previewを超える性能を示しました。たとえば、アメリカ招待数学試験（AIME）のタスクで、わずか数万サンプルの蒸留データを使用した生徒モデルが優れた結果を達成しています。

まとめ

これまでのGPTは「理解する」に留まる存在でしたが、o1は「考える」力を備えた革新的なモデルとして登場しました。o1はChain of Thought（CoT）や自己反省メカニズムを駆使し、複雑な問題を解決し、新たな発見やアイデアを生み出す力を持っています。そして、知識の蒸留という技術を通じて、小型モデルでも高度な推論能力を発揮する未来を実現しました。

さらに、中国をはじめとしてo1を基盤とした関連モデル、QWQ-32-preview、Marco-o1、LLaVA-o1は、それぞれが数学、コーディング、画像認識といった分野で次元の異なる性能を示しています。これらのモデルは、人間のように考え、模索し、そして答えを導き出す力を持つ存在ですAIは単なる道具を超え、未来を共に創り上げるパートナーへと進化しています。この新たな可能性を、今まさに目撃しているのです。次回以降の記事でもさらなる展開をお届けしますので、ぜひお楽しみにしていてください！

Tokkyo.Ai機能のご案内