近年、LLMをはじめとしたAIの研究が盛んに行われており、多様なベンチマーク評価で新記録を更新し続けています。これは人間に例えると「脳」の進化と表現することができます。人間の知能を模したニューラルネットワークの発達により、人間に似たような思考力を持つようになってきているのです。こうしたAIの進化は、ロボット工学にも影響を与え始めているのです。最先端の研究では、AIモデルを活用したロボット「π0」が開発されました。この記事では、「π0(パイゼロ)」の革新性に迫っていきます。
目次
1.最先端のAIロボット「π0」とは?
現代の日本社会は、かつてない速さで進化を遂げていますが、高齢化などの社会的要因により人手不足も深刻化しています。私たちの生活や産業を支える現場では、依然として危険を伴う作業に従事し、事故や健康被害のリスクに晒されています。こうした課題を解決する技術として注目を浴びているのが、「AIロボット」です。
ロボットの研究・開発は、長年にわたって行われてきました。従来のロボットは単純な作業の繰り返しやプログラムされた作業については、非常に大きな貢献をしてきました。しかしながら、タスクごとに異なるデータやプログラムを用いるため、人間のように様々な複雑なタスクに対応できる「汎用性」を持つロボットの開発には至っていませんでした。そんな中、近年のAIの進化に伴い、AIを用いてロボットを開発する手法が確立されており、様々なタスクに対応可能なロボットが実現し始めているのです。その一例が、「(パイゼロ)」と呼ばれるAIモデルです。
π0はPhysical Intelligenceと呼ばれるスタートアップ企業が開発したAIモデルです。このモデルは、既存の大規模言語モデルが持つ膨大なデータを活用してロボットを開発することで、従来は限られていたロボットの学習データの限界を突破し、汎用性のあるロボットを開発できるという強みを持っています。
2.π0の開発手法
汎用AIロボット「π0」の開発の鍵は、革新的な事前学習と事後学習アプローチの融合にあります。
事前学習 ~動作の基本を学習~
開発手法の一つ目は、「事前学習」です。事前学習では、7種類のロボット、68種類のタスク、約10000時間以上のデータを用いて、様々なロボットの動作パターンを学習します。従来のロボット開発では、「AのときはB」のようなルールベースのプログラムを書いていたものを、視覚言語モデル(Vision Language Model/VLM)を使うことで、ロボットが視覚情報や言語指示を統合的に処理し、環境を理解する能力を獲得しました。
事前学習におけるポイントは3つあります。
- クロスエンボディメント学習
- フローマッチング
- 視覚言語モデル(VLM)の統合
それぞれについて、詳しく見ていきましょう。
①クロスエンボディメント学習
π0の事前学習では、7種類の異なるロボットのデータを統合して、一つのモデルで学習を行います。これにより、複数のロボットが持つデータ特性や共通の動作パターンを学習することができるのです。
を学び、様々な状況に適応しうるモデルを構築することができます。π0の学習で利用された7つのロボットは以下の通りです。
- UR5e:産業用の単腕ロボットアーム
- Franka:研究用の単腕ロボットアーム
- Bimanual UR5e:UR5eを2本組み合わせた双腕ロボット
- Bimanual Trossen:研究向けの小型双腕ロボット
- Bimanual ARX:産業向けの小型双腕ロボット
- Mobile Trossen:倉庫・家庭用の移動型ロボットアーム
- Mobile Fibocom:物流・医療向けマニピュレーター
②フローマッチング
フローマッチングとは、ロボットの動作を連続的な行動の分布として学習し、高精度な制御を実現する技術です。もう少し簡単に説明すると、ロボットの動きをよりスムーズにし、細かい予測ミスを減らしながら自然な動きを可能にする技術です。これにより、従来のモデル発生していた、ぎこちない動作や遅れを減らすことができます。
③視覚言語モデル(Visual Language Model/VLM)の統合
π0では、PaliGemmaと呼ばれる画像認識言語モデルを基盤とした、視覚言語モデル(VLM)を統合することで、より自然に指示を理解し、環境に適応することができます。この技術を統合することで、従来は限られていた物体の判定精度などを大きく向上します。
例えば、「テーブルの上を片付けて」といった指示に対し、従来のロボットであれば、ランダムも物を片付けてしまったり、学習したことのない物体を処理することができなかったりする可能性があります。しかしながら、VLMを統合しているため、ありとあらゆるデータをわざわざ学習させなくても、食器はシンクへ、ゴミはゴミ箱へ、本は本棚へ、といった適切な判断を下すことができるのです。
事後学習 ~タスク特化へのアプローチ~
事前学習では、汎用的なロボットとしての能力を獲得しますが、事後学習をすることで、さらに詳細なタスクに特化した能力を獲得することができるようになります。論文では具体的なファインチューニングなどについては言及されていませんが、事後学習でAIモデルの性能を向上させることができることは、様々なLLMの研究から確認されています。
3.多才なAIロボット、その実力は?
このようにして訓練したロボットは、様々なタスクに適応することができたことが報告されています。事前学習後の、シャツの折りたたみ、テーブルの片づけ、食料品の袋詰め、トーストの取り出しなどの簡単なタスクを行った様子が紹介されています。
また、言語指示に対する対応能力を評価した際の実験の様子も紹介されています。このタスクでは、テーブルセッティングや食料品の袋詰めなど、複数の手順に従って実行する必要があるため、忠実に指示に従う能力が試されます。
タスク全体を大まかに指示する場合と、細かい手順を指示する場合の両方を検証し、細かい指示を与えたときの方が、精度が特に向上することが確認されました。このことから、π0は高い言語理解能力を備えていることがわかります。
さらに未知のタスクへの適応力についても検証されました。電子レンジにタッパーを入れるタスクや、ペーパータオルを交換するという、データセットには含まれていなかったタスクに対しても、短時間の追加学習で適応できることが確認されました。
また、Physical Intelligenceの公式サイトでは、ロボットが動いている様子が紹介されています。単一のロボットで、いくつものタスクを実行できる汎用性を持っていることが見て取れます。
4.汎用AIロボットの新時代へ
この記事では、視覚言語モデル(VLM)を活用したAIロボット開発として、「π0」というモデルをご紹介しました。事前学習で複数のロボットデータを収集し、VLMと統合することで、様々な環境に対応可能な汎用性のあるロボットが開発できることがわかりました。このような汎用AIロボットは、将来的には産業の現場や家庭内、さらには災害対応や医療などの分野での活用が期待されています。のような先進的なモデルは、今後のAIロボットの新時代を切り開く鍵となっていくでしょう。
【参考文献】