AI(ChatGPT, Geminiなど)は1年間でどれほど進化したのか？

AIやLLM（大規模言語モデル）の進化スピードは、1年間という短期間でも驚くほど急激です。たとえば最近、Claudeが「Extended Thinking mode」と呼ばれる推論モデルを導入したり、プログラミング業界でのLLM活用が一気に広がったりと、実用シーンも急拡大しています。では、1年前のLLMは今と比べてどの程度の性能だったのでしょうか？

本記事では、2024年2月にリリースされた「Gemini 1.5」と、2025年1月にリリースされた「Gemini 2.0」を例に、わずか1年間でどのような飛躍があったのかを比較・検証してみます。学習やアップデートを止めてしまうと、あっという間に置いていかれてしまうのがAIの世界です。この記事を通じて、LLMの進化を追う意義と、最新動向を学び続けることの重要性を改めて考えてみましょう。

ベンチマーク比較：1年間でどのくらい性能が上がったのか

まずはベンチマークの観点から、Geminiが1年間でどの程度進化したのかを見てみましょう。Googleの開発者ブログ(Google for Developers)によると、新モデルの「Gemini 2.0 Flash」は「Gemini 1.5 Pro」の約2倍の速度で動作するとされています。この高速化に加えて、13の主要タスクのうち12タスクで改善が見られ、なかでも8タスクで+9ポイント以上の伸びという大幅なスコア向上を示しています。

まずはベンチマークの結果を通じて、Geminiが1年間でどの程度の進化を遂げたのかを確認します。Googleの情報によれば、新モデルの「Flash 2.0」は「1.5 Pro」に比べて推論速度が2倍に向上しており、実際に13の主要タスクのうち12でスコアが改善しました。そのなかでも8つのタスクでは+9ポイント以上という大幅な伸びが見られ、特に数学系（MATH／HiddenMath）、コード生成（Bird-SQL／LiveCodeBench）、そしてQA系（SimpleQA）が顕著に強化されています。

たとえばMMLUは67.3から77.6へアップし、大学レベルの幅広い学問分野を扱うタスクでより高い推論力を示すようになりました。また、コード理解を評価するLiveCodeBenchは30.7から41.0へと伸びており、さらに自然言語からSQLクエリを生成するBird-SQLにいたっては45.6から58.7へと大きく向上しています。これにより、データベース検索や外部ツールとの連携が一段と円滑になりそうです。複雑な推論を要するGPOAも51.0から60.1へ伸び、シンプルなQAタスクであるSimpleQAでは+21.3という改善が見られました。多言語対応力を測るGlobal MMLUは73.7から83.4に上昇し、より多様な言語でも正確な回答が期待できます。

数学関連の性能も一様に上がっているものの、微分積分のような一般的な計算タスクだけでなく、より高度な数学的推論を要求するHiddenMathでの伸びが際立っています。具体的には47.2から63.5へと大幅に改善しており、単なる公式適用を超えた複雑な思考能力が備わりつつあるといえるでしょう。さらにマルチモーダル能力の強化も大きな特徴で、画像を扱うMMMUIが+9.4、音声を扱うCoVoST2が+8.9と高い伸びを示しており、テキスト以外の入力を理解する力が1年前とは比べものにならないほど向上しています。これらの結果を見る限り、Gemini 2.0では応答速度と正確性の両面で飛躍的な進歩を遂げたと言えそうです。

ベンチマークから見えてくる4つの大幅向上ポイント

全体的なパフォーマンス向上
一般知識、プログラミング（コード生成）、数学、多言語対応など、多方面で底上げが見られる
データ分析性能の強化
Reasoning（推論）性能向上やHiddenMathでの高いパターン分析力、Bird-SQLによる精度の高いデータベースクエリ構築など
ハルシネーションの抑制
SimpleQAでの大幅なスコア上昇により、事実性・正確性の面で信頼性が高まっている
マルチモーダル性能の進化
画像・音声を含む入力への対応力が上がり、“人工知能の目と耳”が大きくアップグレードされた印象

こうしたベンチマークの結果からもわかるように、この1年でGeminiの性能は応答速度から多言語対応、コード生成、そしてマルチモーダル理解にいたるまで、あらゆる面で大幅に進化しています。

進化した機能と新たに実装された要素

この1年でGeminiの機能面は大きく様変わりしました。とくに顕著なのがマルチモーダル対応とツール連携の強化で、Gemini 1.5の段階ですでにテキストや画像、音声、動画といった多彩な入力形式に対応していたものの、当時はテキスト出力が主流でした。ところがGemini 2.0では、画像生成や音声読み上げ（TTS）といったマルチモーダル出力がネイティブ対応となり、入力と出力の両面で利便性が飛躍的に高まっています。

加えて、サードパーティ製のツールを直接使える仕組みも拡張され、内部からのウェブ検索やコード実行、ユーザー定義関数の呼び出しが可能になりました。これにより、ユーザーの指示に応じて自動でネット検索を行い最新情報を取得したり、プログラムコードを実行して計算結果を返すなど、エージェント的な振る舞いがいっそう洗練されつつあります。さらに、Gemini 2.0ではThinkingモードが導入され、モデルにあえて「思考時間」を設けることで従来より高度な推論を実現できるようになりました。Project AstraやMarinerといったエージェント開発も進行中で、ワークフローの自動化をさらに加速させる基盤が整いつつあるのも大きな特徴です。

機能が拡充した反面、利用コストが上昇するのではないかという懸念もありましたが、実際にはGemini 2.0 Flashにおける1Mトークあたりの入力料金が0.10ドル、出力料金が0.40ドルと、Gemini 1.5 Flashに比べて割安になっています。そして、マルチモーダル性能の向上も見逃せないポイントです。とりわけMultimodal Live APIの実装は画期的で、これまであらかじめ録画した動画の分析が主流だったものが、現在見ているPCの画面や実際の風景などをリアルタイムで解析できるようになりました。こうした変化により、1年前とは比べものにならないほど多面的かつ即時的な活用が可能になっています。

1年で大きく進化したポイント

マルチモーダル出力の実装
画像生成や音声読み上げ（TTS）など、アウトプットの幅が広がった
高度な外部ツール連携
LLMが直接ウェブ検索やコード実行を行い、エージェント的にタスクを自動処理
Thinkingモードによる推論強化
数学や高度ロジックを含む複雑なタスクの精度向上
エージェント機能の導入
自動ワークフローや複数タスク連鎖の実装により、LLMがさらなる自律性を獲得
コストパフォーマンスの改善
性能アップと同時に利用費用が下がり、ビジネス導入のハードルが一段と下がった

このように、Gemini 2.0では1年前と比べて機能・性能ともに大幅に進化しており、多様なユースケースでの活用が一段と現実的になっています。

1年前のモデルとの出力差

「9.9と9.11はどちらが大きいですか？」という単純な質問でも、1.5 Flashでは単に「9.9が大きい」という結論だけが返ってきたのに対し、2.0では答えだけでなく、どうして9.9が大きいのかという根拠まで明示してくれました。

「ChatGPTとGeminiの比較表を作成し、JavaScriptで可視化してほしい。細かいデザインや項目はすべて任せる」という要望に対して、2.0はテーブルの色やレイアウトを工夫したコードを一度で提示し、説明文も丁寧に付け加えてくれます。1.5 Flashの時代には「JavaScriptコードによる表現は困難です」というような回答が返ってきていたことを考えると、短期間での飛躍的な進化を実感せずにはいられません。

論文要約でも顕著に表れます。たとえば「Attention is All You Need」を読ませて要点をまとめさせようとすると、2.0 Flashは実験データまで含めて把握し、概要だけでなく詳細な内容にまで踏み込んだサマリーを提示してきます。そのうえ「見やすい図や表で表現してほしい。JavaScriptコードで示してほしい」と追加要望をすると、一度のやり取りで表現プランまで提案してくれるなど、複雑なリクエストに対して柔軟かつ具体的に対応できるようになっています。こうした事例からも分かるように、2.0では応答の質・量・表現力がすべて底上げされており、1年前との比較では大きな進歩を感じます。

今のAIの能力

今回見てきたように、この1年でLLMは大幅な性能強化を遂げました。特に以下の点が顕著です。

マルチモーダル対応の拡大
音声や画像といった複数のメディアを扱えるようになり、リアルタイムでの会話支援や映像分析が実用レベルに到達しました。
推論モデルの進化
従来よりも複雑な思考や数理処理が可能になり、プログラム開発や高度なデータ分析がスムーズに行えるようになっています。
外部ツールとの連携強化
APIを使ったデータの取り込みや計算処理を自動化でき、LLM自体がエージェントとして多彩なタスクをこなせるようになりました。
エージェント機能の充実
ワークフロー型のエージェントが台頭し、タスクの連鎖や自動化を実現する環境が整いつつあります。

このように進化が激しいAI業界では、最新技術を追わずに古いモデルを使い続けると、多くの機能拡張や自動化のメリットを享受できずに取り残されてしまうリスクがあります。AIは新しい段階に進むごとに活用の幅を広げており、私たちも常に学び続けながら最前線のモデルを取り入れることで、その恩恵を最大限に活かせるようになるでしょう。

Tokkyo.Ai機能のご案内

AI(ChatGPT, Geminiなど)は1年間でどれほど進化したのか？

目次

1.1年前のモデルからのベンチマーク比較

2.進化した機能と新たに実装された要素

3.実際に使ってみた性能とユーザー体験

4.「半年で旧世代扱い」のAI業界─学び続ける意義

ベンチマーク比較：1年間でどのくらい性能が上がったのか

ベンチマークから見えてくる4つの大幅向上ポイント

進化した機能と新たに実装された要素

1年前のモデルとの出力差

今のAIの能力

参考文献