Evo-Ukiyoe: 現代に蘇る、AI浮世絵

この記事では、Sakana AIの開発した2つの画像生成モデル「Evo-Ukiyoe」と「Evo-Nishikie」を紹介します。本モデルの作成には、Sakana AIの開発した画像生成の基盤モデル「Evo-SDXL-JP」が使用されています。「Evo-SDXL-JP」については、Sakana AIの公式ブログをご覧ください。また、Sakana AIのモデル開発手法「進化的モデルマージ」については以下の記事をご覧ください。


目次

  1. モデルの開発目的とは?
  2. Evo-Ukiyoe -画像生成で浮世絵が描ける!?-
  3. Evo-Nishikie ―単色の絵に彩を―
  4. モデルの出力結果
  5. モデルの利用方法
  6. まとめ

1.モデルの開発目的とは?

近年は生成AI技術の進歩が著しく、画像生成AIも例外ではありません。しかし、従来の画像生成AIに「浮世絵風の画像を生成してください」と指示をしても、あまり浮世絵らしくない画像が生成されてしまうという問題がありました。その原因は単純で、浮世絵の学習データ不足なのです。そこで、Sakana AIは浮世絵のデータを大量に学習させ、浮世絵風の画像生成に特化したモデルを作成することにしたのです。


2.Evo-Ukiyoe -画像生成で浮世絵が描ける!?-

一つ目のモデル「Evo-Ukiyoe」は、日本語でプロンプトを入力することで浮世絵風の画像を生成することのできる、Text-to-Imageの画像生成AIです。モデルの名称にもなっている「浮世絵」は、世界的に有名な画家であるゴッホにも影響を与えた、日本を代表する芸術としてよく知られています。浮世絵の起源は江戸時代にまで遡るとされており、木版画技術により、庶民でも楽しめる芸術として広まっていきました。その後、木版画技術の発達により、色彩などの表現の幅が広がっていきました。

そんな浮世絵の画像生成モデルの訓練データセットとしては、浮世絵の画像データとそのキャプション(画像に関する情報のこと)の組を使用します。学習に使用する浮世絵のデジタル画像は、立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品の中から選ばれた、合計24,038枚のデータとなっています。

訓練データセットのキャプションをすべての画像に対して手書きでラベリングするのは非常に手間がかかるため、大規模マルチモーダルモデル(LMM)を活用して、画像のキャプションを自動生成しました。人物の描写にミスがあったり、キャプションが長すぎたりした場合、および複雑な専門用語(鳥籠模様や梅花模様など)が含まれた場合には、人手で修正します。

こうして訓練されたモデルをLoRAによってファインチューニングすれば、Evo-Ukiyoeの完成です。

(注:LoRAはパラメータの削減によるLLMのファインチューニング手法のひとつです。)


3.Evo-Nishikie ―単色の絵に彩りを―

2つ目のモデル「Evo-Nishikie」は、入力した画像をもとに新たな画像を生成するImage-to-Imageのモデルとなっています。モデルの名称にもなっている「錦絵」は、江戸時代中期に確立された日本の伝統的な木版画の一種であり、その色彩の豊かさが高く評価されています。Evo-Nishikieは入力画像を錦絵のように鮮やかな色彩を持つ画像に変換してくれる点が魅力です。そんな錦絵の画像生成モデルの訓練データセットとしては、キャプションと条件画像の組を使用しました。キャプションはEvo-Ukiyoeと同様に画像データを説明する情報となっています。条件画像とはオリジナル画像に対してノイズ処理を施した画像となります。オリジナルの浮世絵画像には、虫食いや劣化、シミなどといった、作品には関係のないノイズが含まれており、これを取り除くことでモデルが効果的に学習できるようになります。ここでは、複雑な濃淡などを無視し、さらに輪郭を強調することでノイズ除去を実行しました。


4.モデルの出力結果

公式ブログには、2つのモデルによって生成された画像がいくつか掲載されています。生成された浮世絵と錦絵を確認してみます。

―Evo-Ukiyoeについて―

従来の浮世絵によく登場する題材(桜や富士山、鳥、着物)などについては、本物の浮世絵に近い画像を生成することができていました。当然ながら、従来の浮世絵に登場することのない題材(例えば、ロボットやパソコンなど)については、やや浮世絵から離れることがあります。人物描写の精度がEvo-Ukiyoeの課題のひとつであり、性別などを間違えてしまうことがあるようです。現時点での効果的な対策としては、ネガティブプロンプトの活用が挙げられます。例えば性別を区別したいときには、プロンプトに「男性」と入力し、ネガティブプロンプトに「女性」と入力すると効果的だとしています。

 

―Evo-Nishikieについて―

初期の浮世絵は墨一色の墨摺絵(すみずりえ)であり、時代とともにそのカラーバリエーションが増えていったという歴史的な経緯を持ちます。初期の浮世絵をEvo-Nishikieに入力することで、墨一色であった浮世絵が色鮮やかな錦絵に生まれ変わります。この技術を使用すると、『古典籍も現代の絵本のように見て楽しめる』ようになるとしています。


5.モデルの利用方法

Sakana AIが発表したこれら2つのモデル「Evo-Ukiyoe」と「Evo-Nishikie」は、ともにHugging Faceで利用可能となっています。ご興味のある方は、是非試してみてください。

また、モデルをPythonで実装することなく簡単に試せるデモも用意されています。

(注:Evo-Nishikieのデモについては、エラーが生じることがあります。)

今回はEvo-Ukiyoeのデモを使用して、簡単に浮世絵の画像を生成してみます。

Evo-Ukiyoeのデモで作成

左の画像のプロンプトは「湖の上を飛ぶ鶴の様子」、ネガティブプロンプトは「人間 赤」としたものです。ネガティブプロンプトを入力しない場合、鶴が赤くなってしまったため、上のようなネガティブプロンプトを使用しました。湖や山のグラデーションや全体的な構図などは、従来の浮世絵に近いものがあるように感じます。

右の画像のプロンプトは「着物を着た男性、立って芝居をしている」とし、ネガティブプロンプトは「女性」と入力したものです。右上の男性2人の違和感や、左上の文字化けは確認できますが、全体的には浮世絵をよく再現できているように感じられます。


6.まとめ

この記事で紹介した2種類の画像生成AIの要点をまとめます。

  • Evo-Ukiyoeは、日本語の入力プロンプトに対して浮世絵風の画像を生成するモデル
  • Evo-Nishikieは、画像の入力に対して、錦絵風のカラー化を施すモデル
  • モデルの訓練データには、立命館大学ARC所蔵の24,038枚を使用
  • 進化的モデルマージによって開発したEvo-SDXL-JPを基盤モデルとして活用

最新AIによる生成コンテンツが多くの人の目に入り、浮世絵や錦絵のような日本文化が世界中にさらに広まっていくといいですね。


参考文献