Nvidia、テキストから画像を生成するAIシステム「GauGAN2」を発表

GauGAN2の発表

2021年11月22日、Nvidiaは、テキストから実在しない風景画像を生成できるAIシステム「GauGAN2」を発表しました。

例えば、 GauGAN2 に「sunset at a beach」というフレーズを入力すると、それに対応した「浜辺の夕日」の画像が生成されます。さらに、このフレーズに「rocky」という形容詞を追加して「sunset at a rocky beach」としたり、「sunset」を「afternoon」や「rainy day」に置き換えたりすると、それに応じて画像も瞬時に修正されます。

GauGAN2を支えるGANとは

GauGAN2は、生成器(Generator)と識別器(Discriminator)で構成されるGAN(Generative Adversarial Network)と呼ばれるシステムの一種です。

生成器は、画像とテキストのセットなどのサンプルを受け取り、どのデータ(単語)が他のデータ(風景写真の要素)に対応するかを予測します。そして生成器は、その予測が現実的かどうかを評価する識別器を欺こうとすることによって鍛えられます。

*GANについて詳しく知りたい方は、↓の参考記事をご参照ください。

指摘されるバイアスのリスク

GauGAN2のような生成モデルについては、バイアスがかかる可能性があるとの指摘もあります。例えば、「家政婦」というテキストであれば「女性」の画像、といったように、ステレオタイプ的な関連付けを行うリスクがあるとの指摘です。

まとめ

上記のようなバイアスの危険性を無視することはできませんが、 GauGAN2 は今後、映画やビデオゲーム、製品、ファッション、インテリアデザインなど様々な分野に応用できる可能性があり、非常に有用性が高いAIシステムであることも間違いないでしょう。