FoleyCrafter: 無音の動画に命を吹き込む革新的AI音声生成技術

2024年7月1日、上海人工知能研究所と香港中文大学は「FoleyCrafter」を発表しました。FoleyCrafterは、無音のビデオに高品質な効果音を自動生成するAI技術です。従来の動画生成AI(Luma AIのDream Machine、OpenAIのSora、RunwayのGen-3 Alphaなど)は動画のみを生成しますが、FoleyCrafterはその動画に適した音声を自動生成し、自然な効果音を付加することができます。

 

1.FoleyCrafterの魅力

動画に命を吹き込む!映像の意味を捉えた高品質音声生成

  • リアルな音声生成:

セマンティックアダプターがビデオの特徴を基に音声生成を生成します。そのため、ビデオの内容と音声が意味的に一致し、ユーザーに一貫した体験を提供します。

  • 正確な同期技術:

時間的コントローラーは、オンセット検出器とタイムスタンプベースのアダプターを使用して音声とビデオの同期を実現します。これにより、効果音がビデオのシーンにぴったりと一致し、リアルな体験を提供します。

  • カスタマイズ可能な音声生成:

テキストプロンプトを使用して、ユーザーの意図に応じた多様な音声生成が可能です。これにより、カスタマイズ可能な音声生成が実現し、クリエイターの柔軟性が向上します。

 

 

2.FoleyCrafterの機能

使いやすさと多機能性:FoleyCrafterの直感的な操作方法

FoleyCrafterは動画を入力することで、その動画に適した音声を自動で生成します。また、ユーザーがプロンプトを入力することで、より詳細な状況設定により効果音付きの動画を作成できます。

  • テキストプロンプトによる状況設定

ユーザーは文章で指示を与えることで、意図に沿った多様な音声生成が可能です。犬の動画に「吠えている様子」などの具体的な指示を入力することで、自然な効果音付きの動画を作成できます。

  • ネガティブテキストプロンプト

効果音をつけるだけでなく、効果音付きの動画から雑音などの不要な音を除去することも可能です。

 

 

3.FoleyCrafterの仕組み

精密な同期技術と高度な解析:FoleyCrafterの革新技術の裏側

FoleyCrafterは時間的コントローラとセマンティックアダプターの二つのコンポーネントで構成されています。

  • 時間的コントローラ

ビデオと音声の正確な同期を実現しています。オンセット検出器(T.D.)とタイムスタンプベースのアダプター(T.A.)を使用して、音の発生タイミングを予測し、ビデオと音声の同期をします。例えば、テニスをする映像では、ラケットに当たる瞬間にその音が生成されます。

  • セマンティックアダプター

ビデオの意味的特徴を抽出し、それに基づいてリアルな効果音を生成します。並列クロスアテンションレイヤーを使用し、ビデオの特徴を条件として音声を生成し、視覚コンテンツに関連するリアルな効果音を生成します。

 

 

4.技術の詳細

技術の核心:FoleyCrafterの高度な音声生成プロセス

1.ビデオ入力:

ビデオを入力として取り込み、セマンティックアダプター(S.A.)と時間的コントローラー(T.D.およびT.A.)がビデオの特徴を解析します。

2.音声生成:

解析された特徴に基づいて、オーディオ生成器(A.G.)が音声を生成します。この過程では、トレーニングされたモデルが使用され、ビデオと音声の同期が確保されます。

 

 

 

5.他社との比較

FoleyCrafterの優位性:DeepMindやElevenLabsとの違いを徹底解説!

他社の音声生成AIには、googleのDeepmindやElevenLabsなどがあります。

  • Deepmind

6月17日にGoogleのDeepMindはV2Aを利用したサウンドトラックシステムを発表しました。FoleyCrafterと同様に、テキストプロンプトとビデオピクセルにより、動画を分析し、無音の動画から音をAIが生成することができます。

メリット

FoleyCrafterと同様にテキストと動画から音声を自動生成でき、VeoやSoraなどと連携し使うことができます。

デメリット

FoleyCrafterと異なり、7月3日現在、一般公開されていません。

  • ElevenLabs

ElevenLabsはGoogleの従業員たちが立ち上げたスタートアップ企業で、テキストからリアルな音声を生成します。吹き替えなどに主に使われています。

1.Text to speech:テキストを任意の音声を生成し読み上げます。

2.Speech to Speech:録音された音声をボイスチェンジします。

3.Projects:既存の音声を生成、編集します。

4.Dubbing:生成された音声を翻訳し、多言語に吹き替えます。(29言語に対応可能)

メリット

任意の音声を生成し、詳細なプロンプトを用いることでカスタマイズ可能です。音声の感情やスタイルも調整可能です。

デメリット

全自動で同期するわけではなく、手動で調整する必要があります。また、FoleyCrafterのような動画に合わせた音声生成機能はなく、ユーザーがプロンプトを入力する必要があります。

 

 

6.まとめ

無音動画に革命を!音声生成AI技術の先駆者FoleyCrafterの将来性

  • 動画生成AIは音声まで同期して生成することができない
  • FoleyCrafterは無音の動画にAIで自動で音声をつけることが可能
  • 動画の意味的整合性や同期が適切な音声生成が自動で可能

現在、動画生成AIで音声を自動生成できる技術は非常に限られています。そのため、FoleyCrafterのような貴重な音声生成AIは他社技術と比較しても、動画に対する自動生成において優れた性能を発揮しています。今後も音声生成技術の進化が期待され、FoleyCrafterはその先駆者として注目されることでしょう。DeepMindなどの他社技術についても、引き続き最新情報をお届けしますので、お楽しみにしてください。

 

 

参考文献