次世代の多機能型画像生成AI～OmniGen～

導入
OmniGenの機能
性能評価
利用方法
まとめ
参考文献

１．導入

Chat GPTを皮切りに起こった生成AIブームを経て、いまや生成AIもテキストのみでなく様々なものを自然言語入力から生み出すことができるようになりました。テキストから画像を生成したり、音楽を作ったり、動画を生成する技術も日々進化しています。画像生成でいうと最近の進化は「違和感のない画像は当たり前、いかに高画質の画像を生成できるか」という方向性にある印象でした。しかし、直近の画像生成AIの画質はどれもとても高く、早くも高画質すら「当たり前」になりつつあるようです。そこで最新のモデルではテキストから画像を生成することに加えて様々な機能を搭載したものが登場しています。

この記事では最新の多機能画像生成AI、OmniGenを紹介します。

２．OmniGenの機能

OmniGenの機能は以下のようなものがあります。

（１）テキストから画像生成

自然言語入力に対応した画像を任意の縦横の長さ比で生成できます。DALL-Eなどと同様の機能です。

（２）画像編集機能

画像の背景や特定のオブジェクトの削除、追加や入れ替えなどの編集をテキストによる指示で可能です。

他にも画像の大まかな形のみを抽出したり、もとの画像に登場するものを全く新しい画像に登場させたりすることもできます。

（３）被写体の抽出

複数の画像からそれぞれ被写体を抽出して新しくひとつの画像に登場させることができます。

これらの機能の使用例を一つにまとめたのが以下の図です。

３．性能評価

これほど多機能であるだけでも十分他のモデルとの差別化はなされていますが、画像生成モデルとしての競合との性能比較も見てみましょう。

GenEvalという画像生成モデル用のベンチマークの評価を見てみると、多くの項目でDALL-E３を含む既存モデルを上回っていることがわかります。

また、元画像の再現性とテキストの内容の再現性を示したデータでも既存モデルを上回っていることがわかります。

これらから、OmniGenは機能性のみを追求したモデルではなく、画像生成モデルとして優秀であることがわかります。

４．利用方法

以下のリンクから実際に利用ができます。

https://huggingface.co/spaces/Shitao/OmniGen

実行に必要なコードは以下にあります。

https://github.com/VectorSpaceLab/OmniGen?tab=readme-ov-file

５．まとめ

ここまで見てきたようにOmniGenは次世代の画像生成AIの進化の方向を示しているといってもいいでしょう。画像の編集や合成が自然言語入力で望んだとおりに完了するのは画期的な技術ではないでしょうか。しかし懸念もあります。これだけ簡単に画像を加工できてしまうということは悪質なフェイク画像もいままでより簡単に、より作為的な画像を生成できてしまうということです。現状生成AIなどの技術の進化に法規制の整備が追い付いていない感が否めません。これがAIが多用される社会で早急に対処すべき今後の課題となるでしょう。

６．参考文献

2409.11340 (arxiv.org)