商用利用が可能なマルチモーダル動画生成AI:Runway Gen-3 Alphaの魅力

1.はじめに

2024年6月17日にRunwayは動画生成AIモデル「Gen-3 Alpha」を発表しました。このモデルは、テキスト、画像、動画などといった多様な入力に対応するマルチモーダルAIです。Gen-3 Alphaは前モデルであるGen-2と比較して生成速度や忠実度が大幅に向上しており、クリエイターがより緻密で表現力豊かなコンテンツを簡単に作成できるようになりました。

 

2.Gen-3 Alphaの魅力

Gen-3 Alphaの最大の魅力は、マルチモーダル入力にあります。この機能によりテキストから画像、画像から動画、テキストから動画を生成することができます。また、モーションブラシや高度なカメラコントロール、ディレクターツールといった直感的なユーザーインターフェース(UI)により、細部にまでこだわったクリエイティブな動画編集が可能です。

 

 

出典:introducing-gen3-alpha (gen2はhttps://app.runwayml.com/video-tools/teams/oratetsu/ai-tools/generative-videoで作成)

Prompt: Subtle reflections of a woman on the window of a train moving at hyper-speed in a Japanese city.

上記の動画から分かるように、Gen-2とGen-3の間には著しい進化が見られます。Gen-2の動画では、電車と女性が別々のオブジェクトとして扱われ、違和感が生じていました。また、女性の表情に変化がなく、静的で不自然な印象を受けます。それに対し、Gen-3では女性の表情や肌、光の反射までが自然に表現され、動画の質が飛躍的に向上しています。Gen-2で見られた違和感がなくなり、より自然でリアルな動画を生成できるようになっています。

 

 

Prompt: FPV flying through a colorful coral lined streets of an underwater suburban neighborhood.

次に、上記のようなプロンプトを入力した場合の比較を行います。Gen-2はFPV(一人称視点)の映像を生成できているものの、「underwater(海底)」や「colorful coral(色とりどりのサンゴ礁)」といった要素を正確に表現することができていません。それに対し、Gen-3はサンゴ礁や海底を正確に表現し、自然で高解像度な動画を生成することができます。また、カメラの視点も固定ではなく、動的に変化し移動する高性能な動画が生成されています。

このように、視点だけでなく、ズームインやズームアウトを駆使した多彩なカメラワークにより、リアルで高解像度な動画を生成できるようになっています。著しく進化したGen-3 Alphaの魅力について、これから詳しく説明していきます。他の生成動画は、Runwayの公式X(旧Twitter)アカウントから閲覧することができます。

 

マルチモーダル機能の魅力

Gen-3 Alphaではマルチモーダル入力によりテキストや画像などの詳細なイメージを学習し、具体的で創造的な動画を作成することができます。テキストから画像を生成し、その画像を基に動画を生成することで、ユーザーは具体的なビジョンを具現化できます。例えば、特定のシーンを描写するテキストを入力することで、そのシーンを再現する動画を簡単に作成し、編集することが可能です。

  • テキストから動画作成

簡単なテキスト入力で、豊かなシーンを即座に具現化します。例えば、「夕焼けの海辺で走る犬」と入力すると、そのシーンを再現した動画が生成されます。

  • 画像から動画作成

手持ちの画像を入力するだけで、その画像を基にした動画を作成できます。例えば、美しい風景写真をアップロードし、その風景が動き出す様子を楽しむことができます。

  • テキストと画像から動画作成

テキストと画像を組み合わせることで、より詳細な動画の指定が可能です。例えば、テキストから画像を作り、その画像から動画を生成する工程に分けることもできます。

  • 複雑な動きの細かな指定

モーションブラシやカメラコントロールなどのディレクターツールを使って、複雑な動きや詳細なアニメーションをリアルに再現できます。例えば、キャラクターの歩行や自然の風景の変化などを精密に表現できます。

 

高いユーザーインターフェース(UI)

Gen-3 Alphaはマルチモーダル入力だけでなく、カメラコントロールとディレクターツール、モーションブラシといった直感的なUIを備えています。これにより、直感的でよりイメージに近い動画を作成し、動画内の複雑な動きを自由に描写することができます。例えば、雲が動く、波が立つといった風景の動画や、人の行動を画像や動画からリアルに再現することができます。

出典:How to Use Multi Motion Brush | Runway Academy

 

商用利用可能

2024年6月19日現在、Gen-3 Alphaを使用して生成・編集した動画は商用利用が可能です。これにより、プロモーション動画やブログなど、幅広い用途で活用できます。

 

3.他社との比較

Gen-3 Alphaを他社の動画生成AIと比較してみます。

OpenAI社のSoraやLuma社のDream Machineと比較すると、これらのAIは動画生成に特化しており、非常に高いクリエイティビティを持ち、ハイクオリティな動画生成が可能です。Soraはまだ一般公開されていませんが、Dream MachineはGen-3 Alphaと同様にマルチモーダル入力に対応しています。

一方、Gen-3 Alphaは動画生成だけでなく、編集機能など幅広いAIモデルを提供しています。また、高度なカスタマイズが可能で、モーションブラシやカメラコントロールなどのコントロール機能を備えており、細かい動画調整や創造的な動画編集が可能です。

 

 

まとめ

  • マルチモーダル入力による具体的な動画作成
  • 高いUIによる直感的な動画編集
  • 商用利用可能!

現在、動画生成AIは成長し続けており、広告、教育、エンターテイメントなど多岐にわたる分野での活用が可能です。これからも発展があり次第、記事にまとめていくので、チェックしてみてください。

 

参考文献

https://runwayml.com/blog/introducing-gen-3-alpha/

Runwayはこちらから