自然言語で操作する物理シミュレーションAI『Genesis』の全貌

 

カーネギーメロン大学は2024年12月19日、オープンソースの物理シミュレーションAI「Genesis」を発表しました。この革新的なAIは、現実世界の43万倍の速度で物理シミュレーションを実行する能力を持ち、自然言語の入力から直接物理シミュレーションを生成することが可能です。

従来の物理シミュレーションでは、重力や抵抗といった多様な物理現象を事前に数値として設定し、膨大な事前トレーニング(pre-training)を行う必要がありました。このプロセスには多大な労力がかかり、さらにシミュレーション結果の精度には研究者や機関ごとのばらつきが見られるという課題がありました。

これに対し、「Genesis」は自然言語入力に対応しており、ユーザーが単に言葉を入力するだけで、指定されたシミュレーション環境を自動的に構築できます。その最大の特長は、圧倒的な高速性と簡便さにあります。「Genesis」は、1時間の計算でロボットが10年分のトレーニング経験を獲得できるとされています。

さらに、「Genesis」はオープンソースとして提供されており、誰でも無料で利用できる点も大きな魅力です。

本記事では、「Genesis」の詳細な仕組みや、その技術が切り開く未来の可能性について深く掘り下げていきます。

 

目次

 

物理シミュレーションAIの始まり

2022年: DALL·E 2、Mid Journey(画像生成AI)
2024年2月:
Sora(動画生成AI)
2024年12月:
Genesis(物理シミュレーションAI)

2022年には、DALL·E 2やMid Journeyといった自然言語による画像生成AIが登場し、この分野の革新が始まりました。その後、画像生成AIはさらに進化を遂げ、静止画から動画へと応用が広がり、新たな時代を切り開いていきました。

そして2024年には、2月にSora、9月にはAdobeのFirefly Video ModelやGoogleのVeoといった自然言語による動画生成AIが相次いで発表され、画像から動画への進化が加速しました。この流れは単なる進化にとどまらず、次の段階である「自然言語による物理シミュレーション」へと拡張しつつあります。

いままさに訪れているこの新しい時代において、自然言語を用いた物理シミュレーションモデル「Genesis」が注目を集めています。

出典:Genesisについて:genesis公式vlog

 

Genesisとは?

Genesisは自然言語で生成可能な物理シミュレーションAIです。完全なPythonモデルとして構築されており、オープンソースで提供されているため、誰でも無料で利用できる点が大きな魅力です。この特性は、物理シミュレーションAIが普及する過渡期において、研究や開発の活性化を大きく促進するでしょう。

さらに、Genesisは「4Dダイナミックワールド」と呼ばれる世界を生成でき、時間の経過に伴って変化する3Dワールドをシミュレートすることが可能です。このシミュレーションは、リアルな物理法則に基づき、カメラの動きやオブジェクトの挙動を自然に再現できるもので、すべてを自然言語によるテキストコマンドで生成できる点が革新的です。

また、Genesisには最適化された衝突チェックや自動ハイバネーション、コンタクトアイランドなどの複雑なシミュレーションが可能であり、これらの機能は、GPUアクセラレーションを活用した並列計算を行うことで、従来の物理エンジンに比べて飛躍的な効率性と性能を実現しています。

 

NVIDIAを凌駕する性能

まず、「Genesis」の性能について考察します。
「Genesis」を既存の高性能物理シミュレーションモデルと比較すると、その優れた処理速度が際立っています。たとえば、NVIDIAの「Isaac Gym」との比較では、以下のような結果が得られています。

  1. Plane & Standing Anymal C(歩行型ロボットのシミュレーション)
    Genesisは、「Isaac Gym」と比べて約20倍の速度でシミュレーションを実行可能です。
  2. Plane & 10 6-DoF Meshes(平面上の10個の6自由度メッシュのシミュレーション)
    Genesisは、約81倍の速度を達成しています。

これらの結果から、「Genesis」は単純なスタンディング型歩行ロボットのシミュレーションにおいてNVIDIAのGPU性能を大きく上回ることが分かります。さらに、シミュレーション対象の自由度が増加し、より複雑な動きを含む場合、その速度差はさらに拡大するします。

「Genesis」の性能は、従来の物理シミュレーションの限界を大きく押し広げ、研究や開発における新たな可能性を切り開くものとして注目されています。

出典:Genesisについて:genesis公式vlog

 

自然言語による物理シミュレーションAIの利点

従来の物理シミュレーションモデルでは、重力などの初期条件を手動で設定し、シミュレーション環境を事前に構築した上で自然界の物理現象を再現していました。このプロセスは非常に手間がかかり、多大な時間と労力を要しました。

「Genesis」は、自然言語を活用して物理シミュレーションを実行することで、従来の煩雑な準備作業を自動化し、効率化を実現します。これにより、シミュレーション環境の構築が劇的に簡素化され、物理現象のシミュレーションを従来よりも迅速かつ効果的に行うことが可能です。

 

Genesisの3つの機能

  1. 物理シミュレーション

「プロンプト:Quadraped single-backflip」

出典:Genesis公式vlog

Genesisは、流体力学をはじめとする物理現象を学習した高速物理演算AIです。この技術により、現実に近い自然環境下でのシミュレーションを作成することが可能です。Genesisは視覚言語モデル(Visual Language Model, VLM)を活用し、テキストプロンプトから物理法則に基づいた仮想環境を自動生成します。この仮想環境には、カメラの動きやオブジェクトの挙動を含む「4次元の動的な世界」が再現されます。ここでいう4次元とは、3次元空間に時間軸を加えた次元を指します。

たとえば、「可動式のフランカアームがボウルと電子レンジを使ってトウモロコシを加熱する」といった指示を自然言語で入力するだけで、その内容に基づいた3Dかつ時間軸で動作している物理シミュレーションが自動的に作成されます。

このプロンプトベースのシステムを利用することで、研究者は手動でプログラミングを行う必要がなくなり、自然言語コマンドを入力するだけで複雑なロボットテスト環境を作成でます。

 

  1. 動画生成AI


「プロンプト:A Japanese samurai performs boxing

出典:Genesis公式vlog

Genesisは、キャラクターのモーションなどの動画生成も可能にするAIです。従来の動画、画像生成モデルは主に拡散モデル(Diffusion Model)を基盤としていましたが、この手法にはいくつかの課題がありました。たとえば、動画内で登場人物が急に変わったり、一貫性のない動きが発生したり、現実ではあり得ない挙動が再現されたりすることです。

これは、拡散モデルが、ノイズを加えてデータを一度破壊(拡散)し、その後ノイズを取り除いてデータを再構成(復元)するプロセスを学習し、この仕組みでは、新しいデータを生成する際に一貫性や現実感が不足するのが原因です。そのため、従来の動画生成AIはSF的な動画や抽象的な映像表現に限定して使用されることが多い状況でした。

一方、Genesisは視覚と言語を組み合わせた「視覚言語モデル(VLM)」を採用しています。このモデルは、画像(視覚情報)と言語(テキスト情報)を統合的に処理し、人間のように「見て」「説明する」能力を備えています。さらに、Genesisは流体力学をはじめとする物理現象を学習しており、物理法則に基づいたリアルな動きや自然な環境を動画で再現することが可能です。

これにより、Genesisはこれまでの動画生成AIの課題を克服し、現実的で整合性のある動画を生成できる新たな可能性を切り開いています。そのため、従来のSF的な表現に加えて、リアリスティックなCG動画や実写に近い映像制作も作成することが可能です。

 

  1. 画像生成AI

出典:Genesis公式vlog

これまで説明してきたように、AIは画像生成から動画生成、さらに物理シミュレーションへと進化を続けています。この流れの中で、物理シミュレーションAIであるGenesisも、画像生成を可能にしています。ただし、Genesisが生成する画像は従来の2D画像とは異なり、3D空間上で表現されたアニメーションのような特徴を持っています。

この技術を活用することで、顔のアニメーションや感情の生成が可能となり、さらに3Dオブジェクトの作成も実現できます。これにより、リアルなキャラクターや環境をこれまで以上に効率的に作成することが可能です。

従来のビデオ合成拡散モデルがピクセルの統計的な操作に依存していたのに対し、Genesisはシミュレーションデータを基に現実的な世界を構築することができる点が最大の強みです。

 

Genesisが可能とする未来:ロボットAI革命

次に、Genesisが可能とする未来について解説していきます。Genesisは、単なる動画生成AIではなく、ロボット工学への応用が期待される画期的な技術です。将来的には、未来型自立ロボットの開発を支える重要な役割を果たすでしょう。具体的には、ロボットが動作する際にAIが動画を生成し、シミュレーションを通じて最適な行動を設計することで、これまでにない高度なロボットの実現ができるとされています。

現在主流のロボットは機械学習を基盤としており、特定の入力(A)に対して決まった行動(B)を取るといった固定的な設計が一般的です。しかし、Genesisのような物理シミュレーションAIを活用することで、ロボットは自然界を模倣した物理シミュレーションを行えるようになり、より人間らしい自然な動きを再現できる可能性があります。

従来のロボットは、あらかじめ設定されたプレセットに基づく動きしかできず、想定外の入力(Zなど)に対しては、不自然な動作や動作停止といった課題がありました。しかし、GenesisのようなAI技術をLLM(大規模言語モデル)ベースのシステムと統合することで、Zのような予期しない入力にも対応し、自然界に即した最適な動きを選択して行動できるロボットが実現するでしょう。

さらに、このシステムはカメラを活用して周囲を認識し、指示に応じた適切な動作を行うことが可能です。この技術により、ロボット設計やテストプロセスが大幅に効率化され、ロボット工学のさらなる進化が期待されています。

 

今後の課題

AIの革新性は目覚ましく、驚異的なスピードで成長を遂げています。しかし、その進化の中で、AIには大きな課題も残されています。それは「説明可能性」の問題です。

従来のシミュレーションでは、環境が事前に人の手で設定されていたため、シミュレーション結果との因果関係を論理的に説明することが可能でした。しかし、現在のAIはブラックボックス化しており、自ら答えを導き出す仕組みになっています。そのため、AIが出力した結果から従来の環境設定のような条件を逆算して特定することが困難になっています。

これは、AIが人間の理解を超える領域に達しつつあることを示しているのかもしれません。今後は、この説明可能性の問題を解決することが、AI技術のさらなる普及と信頼性向上のために重要な課題となるでしょう。

Genesisのロードマップ

Genesisは、今後の機能拡張に向けたロードマップを策定しています。このロードマップには、進行中のプロジェクトや近い将来にリリースが予定されている項目が含まれています。

  • 微分可能で物理ベースの触覚センサーモジュール
    触覚センサーを物理ベースでシミュレートし、よりリアルなインタラクションを実現。
  • 微分可能な剛体シミュレーション
    剛体の運動を高精度かつ効率的に計算できるシミュレーション機能。
  • タイルレンダリング
    大規模なシミュレーションデータを効率よくレンダリングするための技術。
  • より高速なJITカーネルコンパイル
    実行速度をさらに向上させるためのカーネルコンパイルの最適化。
  • 大規模環境向けの無限MPMシミュレーション
    大規模な物理環境を無限にシミュレートする機能を実現。

 

まとめ

  • オープンソースの物理シミュレーションAI
    誰でも利用可能なオープンソースの提供。
  • NVIDIAの技術を超える圧倒的な速度
    NVIDIA技術を超える最大80倍の速度。
  • 「視覚言語モデル(VLM)」によるリアルな表現
    「視覚言語モデル(VLM)」によるリアルな動画生成や4D世界構築。
  • 自然言語による操作性
    自然言語コマンドによるシミュレーション環境の自動生成。

Genesisによって、自然言語によるシミュレーションAIが登場しました。これは動画生成やシミュレーションAIの革新における始まりに過ぎません。さらに、今後の記事で取り上げる予定ですが、Metaの「Meta Motivo」も優れたシミュレーションAIとして注目されています。この技術が医療、ロボット工学、映画制作など、多岐にわたる分野にどのような変革をもたらすのか、未来が楽しみです。

これからもAIや最新技術に関する記事を随時更新していきますので、ぜひチェックしてください!

 

参考文献