Gemini 2.0 Flash Thinking:無料の『考えるAI』、o1との違いは?

2024年12月19日、Googleは「o1」モデルに対抗する新たなAIモデルとしてGemini 2.0 Flash Thinkingを発表しました。このモデルは、「o1」と同等の高度な推論能力を備えつつ、AI Studioを通じて無料で利用可能という大きな特徴を持っています。本記事では、Gemini 2.0 Flash Thinkingと「o1」の比較、使用方法、さらにはその性能の詳細について解説します。

 

 

o1とGemini 2.0 Flash Thinkingの「思考のすごさ」

 

出典:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

まず、o1とGemini 2.0 Flash Thinkingの「思考のすごさ」について説明します。これらのモデルは、Chain of Thought(CoT, 思考の連鎖)という革新的な手法を採用しています。CoTは、AIが最終的な回答を直接出力するのではなく、問題を複数のステップに分解し、それぞれのステップで推論を行いながら回答に近づく方法です。このアプローチにより、複雑な問題を段階的に処理し、より正確で高品質な結果を得ることが可能になります。

従来モデルとの違い

従来のAIモデルは、質問に対して一度だけ計算を行い、その場で最も高い確率と判断された回答を出力していました。この手法では、途中の思考過程や修正がなく、複雑な問題では正確性が不足することがありました。一方、CoTを採用したモデルでは、以下のような段階的なプロセスを通じて回答を生成します。

CoTプロセスの概要

  1. 質問を分析
    問題を理解し、構造を把握します。
  2. 解答手法を設計
    問題解決のための最適なステップを計画します。
  3. 各ステップで推論を実行
    計画に基づき、各段階で解答の正確性を確認しながら進めます。
  4. フィードバックと修正
    各ステップの結果を検証し、必要に応じて修正を加えます。

従来のAIモデルが直接答えを出そうとするのに対し、CoTモデルは「問題の理解」→「解法の検討」→「段階的な計算実行」→「答えの検証」というように、複数のステップを踏み、推論とフィードバックを繰り返します。このアプローチによって、CoTモデルは、従来の単一計算に依存する方式に比べて、より優れた能力を発揮します。

  • 正確性の向上: 解答を検証・改善しながら進むため、高精度な結果が得られます。
  • 透明性の確保: 思考過程が明示されるため、出力の根拠がわかりやすくなります。
  • 柔軟性と適応力: フィードバックを反映して動的に解答を修正できるため、複雑な課題にも対応可能です。

 

これにより、CoTを採用したモデルは、「一度で完璧な回答を出す」従来方式から脱却し、「段階的に検証と改善を繰り返す」アプローチを実現しました。この手法により、o1とGemini 2.0 Flash Thinkingは、複雑な問題への対応力を大幅に向上させています。

 

「考えるAI」Gemini 2.0 Flash Thinkingの性能比較

Gemini 2.0 Flash Thinkingは、OpenAIの「o1」と同等の高度な推論能力を持つ「考えるAI」です。具体的な性能に関する数値はまだ公表されていませんが、本記事では後半に使用例や使用感を紹介し、その実力に迫ります。

Gemini 2.0 Flash Thinkingの主な特徴は以下の通りです:

Gemini 2.0 Flash Thinkingの主な特徴

  • コンテキストウィンドウ:最大32,000トークン
  • マルチモーダル対応:PDF、PowerPoint、画像の処理が可能
  • トークン上限:入力8,000トークン、出力32,000トークン
  • 利用制限:無制限で無料
  • 出力形式:テキストのみ

 

Gemini 2.0 vs. o1:性能・コスト・対応範囲を徹底比較

Gemini 2.0 Flash Thinkingと「o1」には以下の違いがあります:

  • コンテキストウィンドウの差異
    「o1」は最大200,000トークンという大容量のコンテキストウィンドウを提供し、一度に非常に長い文章を処理する能力に優れています。一方、Gemini 2.0 Flash Thinkingのコンテキストウィンドウは32,000トークンに限られています。これにより、「o1」はより詳細で質の高い長文の生成に対応可能で、特に大規模なテキスト解析や高度なタスクにおいて優れた使用感を提供します。

GPT-4oの最大出力は4,096 tokensなので、その20倍の文章量をo1では生成してくれます。

  • 利用コスト
    「o1」は有料プランが必要ですが、Gemini 2.0 Flash Thinkingは完全無料で、使用回数に制限がありません。このため、コストを気にすることなく、あらゆる場面で活用できる点が大きな魅力です。さらに、APIも無料で利用できるため、開発者にとっても非常に魅力的な選択肢となっています。
  • マルチモーダル対応
    「o1」はJPEGやGIFといった画像処理に特化したマルチモーダル機能を持っていますが、PDFやPowerPointといった文書形式には対応していません。一方、Gemini 2.0 Flash ThinkingはPDFやPowerPointの処理が可能で、より幅広いデータ形式に対応しています。そのため、高度な推論能力であるCoT(Chain of Thought)を活用し、PDFやPowerPointの内容を改善したい場合には、Gemini 2.0が最適な選択といえます。

 

API価格

2024年12月20日現在、Gemini 2.0 Flash ThinkingのAPIは無料で利用可能です。詳細な使用方法については、以下のリンクからご確認いただけます。
Gemini API ドキュメント – Thinking Mode

 

Gemini 2.0とo1の実力比較:思考プロセスの違いを探る

まず、Gemini 2.0 Flash ThinkingはGoogleのAI Studioを通じて無料で利用可能です。このモデルにおける「Thoughts」の思考プロセスは、o1と同様に高度で洗練されており、「考えているAI」という感覚を強く実感できます。また、一度に生成される文章量も十分であり、その内容の質も非常に優れていました。

個人的には、Gemini 2.0 Flash Thinkingが現実的かつ堅実なソリューションを提示する傾向があると感じました。具体的で実用的な回答が求められる場面では、このモデルが適していると言えるでしょう。一方、o1は独創的でユニークな解決策を見つけ出す能力に長けており、斬新な視点が求められるシナリオでその強みを発揮します。

特に印象的だったのは、「7、9、11、13を足し合わせて30にしてください」という問題に対する両モデルの回答です。

 

この問題では、「数字の9を逆さにして6と捉える」という発想が必要でした。Google Gemini 2.0 Flash Thinkingはわずか15秒で正解を提示した一方、o1は1分17秒を要したものの、最終的に解答を出すことができませんでした。このケースから、特定の推論問題においてGemini 2.0が迅速に対応する能力を持つことが明らかになりました。しかしながら、画像推論能力においては、より高度な処理が可能なo1の方が優れていると考えられます。(左:o1,右:Gemini)

 

 

まとめ

  • Gemini 2.0 Flash Thinkingの登場
    PDFやPowerPointの処理が可能なマルチモーダル機能を搭載。
  • o1並みの高度な推論能力
    同等レベルの精度で複雑な問題に対応可能。
  • 32,800トークンのコンテキストウィンドウ
    長文処理にも十分対応できる性能。
  • 無料で利用可能
    使用回数に制限なく、コストを気にせず活用可能。

推論能力や性能の具体的な数値は公表されていないものの、実際に使用したところ、高い推論能力を持っていることが確認できました。それに加えて、無料で利用できる点は大きな魅力です。現在、ChatGPT Plusの「o1」を除けば他のオプションの魅力は限定的であり、GoogleのAI StudioでGemini 2.0 Flash Thinkingを代替手段として利用するのも十分に検討する価値があります。

今後も関連情報や使用レポートを随時記事にまとめていく予定ですので、ぜひご期待ください。

 

以下は、o1に関する記事のリンクです:
OpenAIが発表した「o1」の詳細はこちら

また、o1 Proについての詳しい内容は以下の記事をご参照ください:
o1 Pro(ChatGPT Pro)の解説はこちら

さらに、同月には中国の他社も「o1」と同じ仕組みを採用したAIモデルを発表しました。関連情報については、以下の記事をご覧ください:
中国発のAIモデルに関する記事はこちら

 

参考文献