目次:
- 導入
- Magic 1-For-1のアプローチ
- 実験結果
- まとめ
1.導入
2025年2月12日、北京大学の研究者らは新しい動画生成モデルを提案しました。このモデルは、1分間の動画を1分以内で生成することを目指し、メモリ消費や推論レイテンシ(遅延)の最適化を行っています。
最近は動画生成モデルもかなり進化が進み、より高画質の動画をより高い精度で生成できます。しかしその計算コストは非常に高く、新しいものでも5秒の動画を生成するのに8枚のGPUを使用し、15分かかることもあります。実際OpenAIのSoraで5秒の適当な動画を生成したところ、6~7分かかりました。これらを考えると「1分間の動画を1分以内で生成」というのがいかに凄まじい効率化であるかがわかりますね。
この記事では新しい動画生成プロセスであるMagic 1-For-1を解説していきます。
2.Magic 1-For-1のアプローチ
(1)従来の動画生成モデル
まずは従来の動画生成モデルの手法をおさらいしておきます。
現在使われている大半の画像や動画生成は拡散モデルといい、以下のプロセスで学習、生成を行っています。
① ノイズを加える(拡散プロセス)
・元の画像(または動画)に対して、少しずつガウスノイズ(ランダムなゆらぎ)を加えていく
・何回もノイズを加えると、最終的にランダムな粒子のような画像になる
・これによって、モデルは「本来のデータがどのようにノイズ化されるか」を学習す る
② ノイズを取り除く(復元プロセス)
・学習したモデルを使い、ノイズを徐々に除去して元のデータに近づける
・ステップごとにノイズを減らし、リアルな画像や動画を生成する
・つまり、ノイズを「逆再生」することで、新しいデータを生成 する
(2)Magic 1-For-1のアプローチ
Magic 1-For-1は、従来のT2V(Text-to-Video)モデルとは異なる新しいアプローチを採用しています。
① タスク分割
この手法ではテキストから直接動画を生成するのではなく、まずテキストから画像
を生成し、その画像をもとに動画を生成するという2つのステップに分けています。
これによってより少ない拡散ステップで学習が可能になります。
② 拡散ステップ蒸留(Diffusion Step Distillation, DSD)
・DSDの仕組み
・ 教師モデル(Teacher Model) を用意し、通常の拡散プロセス(例: 50ステップ)で動画を生成。
・生徒モデル(Student Model) にその結果を学習させ、少ないステップで同様の結果を出せるように最適化。
・1回のステップで複数のステップ分のノイズを除去するように訓練 することで、計算コストを削減。
これにより、通常の拡散モデルでは数十~数百ステップ必要なところをたった4ステップで生成可能になります。
③ モデル量子化
メモリ使用量を40GB から28GBに削減し、計算コストを大幅に低減しています。
(量子化とはモデルの重み(パラメータ)を低精度化する技術です。)
この最適化により、Magic 1-For-1は一般的なGPUでも動作可能 となり、研究機関だけでなく商業利用にも適したモデルになりました。
3.実験結果
以下の表は様々なステップ数のモデルを様々なベンチマークで評価したものです。
ここから分かるように4ステップのモデルでも生成された動画の質は落ちていません。
また、この表にはありませんが4ステップのモデルの生成速度は5秒の動画を3秒以内、1分の動画を1分以内で生成しており、従来のモデルに比べて大幅な高速化に成功しています。
このモデルのプロジェクトページとリポジトリは以下で公開されています。
:プロジェクトページ(https://magic-141.github.io/Magic-141/)
:リポジトリ(https://github.com/DA-Group-PKU/Magic-1-For-1)
4.まとめ
Magic 1-For-1は動画生成モデルの新たなアプローチを示しました。
2タスクに分解することで計算コストを低減し、拡散ステップ蒸留、量子化によってさらに軽量化し、一般的なGPUでも動作可能までに軽量化されています。
それでいて現在主流の拡散モデルと同等かそれ以上の質の動画を生成できるというので驚きです。この研究では教師データに限りがあったためモデルに偏りが生じてしまったようですが、今後はさらに軽量化が進み、低いコストで長時間、高品質の動画を生成できるようになるでしょう。
参考文献: