米時間12月11日、GoogleはAIアシスタントGeminiシリーズの最新バージョンにあたるGemini 2.0を発表しました。Gemini 2.0はGoogle が提供するマルチモーダルLLMの中でも最も高性能なモデルファミリーです。またLLMとしてのGemini 2.0だけでなく、最近のAI開発のトレンドである「AIエージェント」についても紹介されました。この記事では、新しいGemini 2.0 Flashの特徴に加えて、Gemini 2.0によって実現されるAIエージェント機能についても詳しくご紹介していきます。
現在は試験運用ですが、一般ユーザーでも無料で利用することができます。完全版の公開は2025年1月に予定されています。
Geminiシリーズの特徴
Google が提供するGeminiシリーズの最大の特徴は高性能なマルチモーダルLLMである点です。マルチモーダル入力に対応しているモデルでは、画像や音声などといった様々な形式での入力が可能です。また、GeminiシリーズはGoogleアプリやChromeの検索エンジンとの統合できる点が大きな強みのひとつです。これにより、開発者以外のユーザーでも生成AIエージェントをより手軽に利用できる環境が整っています。
また、Geminiのマルチモーダル性能は他のLLMとは大きく異なる部分があり、それははじめからマルチモーダルに適応するように開発されていることです。従来のマルチモーダルLLMでは、個々のモデル(テキスト生成モデルや画像生成モデルなど)をユーザーからのリクエストに応じて呼び出し、応答を生成しています。しかしGeminiの提供するモデルは、テキストも画像も単一のフレームワークの中で処理することができます。これによりGeminiシリーズではマルチモーダル入力でも高いパフォーマンスを発揮しながら、高速な応答を実現することができるのです。
Gemini 2.0の性能
今回の発表で紹介されたGemini 2.0モデルファミリーは、初期モデルのGemini 2.0 Flashのみとなっています。Google DeepMindの記事によると、Gemini 2.0 Flashは従来のGemini 1.5と比較して全体的に性能が向上しており、高速な応答性能を維持しながらGemini 1.5以上のパフォーマンスを実現したことが強調されています。特に主要なベンチマークでは、Gemini 1.5と比較して2倍の速度でGemini 1.5を上回る結果を示しました。
以下の表はGemini 1.5モデルファミリーとGemini 2.0 Flashを比較したもので、ほとんどすべてのベンチマークでGemini 2.0 Flashが最も高い性能を示しています。
Gemini 2.0の新機能
Gemini 2.0 Flashには新しい機能も搭載されています。画像やビデオ、オーディオなどのマルチモーダル入力に対応していることに加えて、マルチモーダル出力にも対応しました。さらには、Google検索やコード実行、ユーザーが独自に定義した関数を呼び出すことも可能です。こうしたマルチモーダル出力機能は、AIエージェントに欠かせない機能となっています。
AIエージェントとは?
最近のAI開発のトレンドでもある「AIエージェント」とは、人間の代わりに自律的にタスクを実行し、指定された目標を達成するために設計されたプログラムやシステムのことを指します。こうしたエージェントは、ユーザーからの指示に基づいて行動するだけでなく、外部からの情報などを自動的に取得し、自己判断で最適な行動をする能力を兼ね備えています。Googleが手掛けているAIエージェント開発プロジェクトには、主に以下のようなものがあります。
・Project Astra
・Project Mariner
・Jules
これらのプロジェクトは、Gemini 2.0の開発によって大きく進展しました。ここからは、こうしたAIエージェントについて詳しく見ていきましょう。
Project Astra
Googleが手掛けるAIエージェント開発の一つ目がProject Astraと呼ばれるものです。Project Astraは、日常生活のあらゆる場面でユーザーを支援するAIアシスタント(ユニバーサルAI)を開発することを目的としています。具体的には音声や画像処理技術をはじめとしたマルチモーダル処理技術や長期記憶、高度な対話技術などといった機能の拡張が求められます。
Gemini 2.0 Flashでは、プロンプトに対するAIの回答を自然な発声で音声出力する機能が追加されました。これによりProject Astraでは、アクセントの変化や聞きなじみのない単語などに対する理解度が向上し、多言語に対応することが可能となりました。その他にも、Google検索やGoogleレンズ、Googleマップを使用できるようになり、日常生活での使いやすさが向上しました。また、記憶装置の性能向上により、過去の会話をより多く記憶することが可能となりました。今後はスマートフォンのカメラだけでなく、スマートグラスとの連携も計画されています。Project Astraのプロモーション動画については、以下をご覧ください。
Project Mariner
Project MarinerはGoogleが開発を手掛けるAIエージェントの一つであり、主にWebブラウザ上でのタスクの自動化を目的としています。今回の発表で紹介されたProject Marinerは、Gemini 2.0による試作品となっています。研究の試作品として、ブラウザ画面内のピクセル情報(テキスト情報だけでなく、画像やデザインなど)や、テキスト、コードなどのWeb要素を含む情報を理解して推論し、実験的なChrome拡張機能を介して、その情報を元にタスクを実行することができます。
現状は、必ずしも正確にタスクを実行できないことがあったり、タスクの実行に時間がかかったりするという課題があります。また、安全かつ責任のあるAIエージェントを構築するために、人間を関与させながら開発を進めていることについても強調しました。具体的には、エージェントはアクティブなタブのみ入力、クリック、スクロールできるようにし、機密性の高い行動(購入の決定など)の際には、人間に最終確認を求めるように設定しています。Project Marinerのプロモーション動画については、以下をご覧ください。
Jules
Googleが手掛ける3つ目のAIエージェントは、「Jules」と呼ばれる、AIコーディングアシスタントです。これは主に開発者向けのエージェントとなっており、開発者の指示と監督の下で、問題に取り組み、計画を立てて実行することができます。開発者ブログによると、Julesを使用したことで、生産性の向上や進捗状況の追跡などといったメリットがもたらされたとされています。このように、日常生活を豊かにするツールだけでなく、こうした開発者向けのAIエージェントも開発されつつあり、AIによる業務効率化が実現し始めています。
まとめ
この記事では、Googleの最新マルチモーダルモデル「Gemini 2.0」と、それによって可能になったAIエージェントについてご紹介しました。この記事の要点をまとめました。
-
Googleが最新マルチモーダルLLMを発表し、初期モデル「Gemini 2.0 Flash」が公開
-
Gemini 2.0は高速かつ高性能で、マルチモーダル出力にも対応している
-
人間に代わって複雑な処理を実行する「AIエージェント」開発がトレンド!
-
Gemini 2.0の開発はAIエージェントの開発に大きく貢献している
AIエージェントの開発により、AIが私たちの生活にさらに浸透していくことが期待されます。今後もGoogleのAIエージェント開発プロジェクトに注目していきましょう!