AIが歌を作る時代へ!無料オープンソース音楽生成AI「YuE」登場、SunoAIとの比較まで

近年、AI技術は目覚ましい進化を遂げ、特に大規模言語モデル(LLM) がマルチモーダルへと進化を遂げたことで、音声AI分野はまさに革命期を迎えています。GoogleのGemini 2.0 Flash がテキストからリアルタイム音声生成機能を搭載し、ElvenLabs や ChatGPT Advanced Voice Mode など、高品質な音声AIが次々と登場。誰もが手軽に好みの声質をAIで生成し、台本を読み上げさせたり、声優さながらの表現力豊かな音声を作成したりと、音声AIは私たちの日常に浸透し始めています。声の自由自在な変化や、アニメキャラクターのような個性的な声の創造は、もはや夢物語ではありません。

しかし、音声生成AIが飛躍的に進化する一方で、音楽生成AI、特に歌声入りの音楽生成は、依然として高い壁に阻まれていました。単なる音声生成とは異なり、音楽生成には、歌声と楽器という複数の音信号の調和、複雑な楽曲構成、そして何よりも音楽的な一貫性が求められます。これらの課題が複雑に絡み合い、AIによる高品質な音楽生成は長らく困難とされてきました。

2024年11月には、有料音楽生成AI 「Suno AI」 が登場し、その高い音楽生成能力で注目を集めましたが、有料モデルであること、そしてクローズドなプラットフォームであることから、真の意味での普及には至っていません。

そんな状況を打破するゲームチェンジャーとして2025年2月、中国の企業からオープンソースの音楽生成AI 「YuE」 が現れました。なんと、無料でありながら、高品質な歌声入り音楽を生成できます。

この記事では、無料で高品質な音楽生成を可能にしたオープンソースAI「YuE」 の使い方から有料モデル 「Suno AI」 との比較まで全貌を徹底解説していきます。

 

目次

  1. YuEとは?―無料革命を起こす音楽生成AIの全貌を解剖―
  2. YuEを使ってみた!―簡単ステップとプロンプト作成術―
  3. YuE<の技術的基盤―なぜ高品質な音楽生成が可能なのか―
  4. >徹底比較 YuE vs Suno AI―オープンソース vs 有料モデル、あなたに最適なのは?―
  5. YuEを使う前に知っておくべきこと―注意点とライセンスを解説―
  6. YuEによるAGI、ロボットの未来

 

出典:YuE公式サイト

 

1.YuEとは?―無料革命を起こす音楽生成AIの全貌を解剖―

YuEは、香港科技大学の研究チームを中心に開発された音楽生成AIです。その名前は中国語で「音楽」と「幸せ」を意味し、その名の通り、誰もが無料で音楽生成の喜びを体験できるように設計されています。テキストで指示を入力するだけで、AIがその内容に沿ったオリジナルの音楽を、歌声入りで自動生成します。

YuEの主な特徴

  • Text to Audio: テキスト指示で自由自在に音楽を生成
  • 多様なジャンル: ポップ、ロック、ジャズ、クラシック、ヒップホップなど幅広く対応
  • 多言語対応: 英語、中国語(北京語・広東語)、日本語、韓国語の歌詞をサポート
  • 最長5分の音楽生成: BGMから本格的な楽曲まで対応
  • 商業利用可能: 完全無料で利用でき、MP3・WAV形式でダウンロード可能。YouTube、ゲーム、CMなど、さまざまなコンテンツで活用できる

YuEは、無料でありながら高品質な音楽生成を実現する画期的なAIとして、音楽制作の新たな可能性を切り拓いています。

 

2.YuEを使ってみた!―簡単ステップとプロンプト作成術―

YuE Demoにアクセスします。

まず、YuEのデモページにアクセスします。

―プロンプト作成の基本―

YuEでは、Genre「ジャンル」とLyrics「歌詞」の2種類のプロンプトを作成することで、希望する音楽を生成できます。

(1) Genreプロンプト(ジャンル設定)

ジャンル、楽器、ムード、性別、音色の5つの要素を指定します。※文章ではなく、それぞれスペースで区切ると効果的です。ジャンルプロンプトのサンプルはこちら

 

(2) Lyricsプロンプト(歌詞設定)

構造ラベル([verse]、[chorus] など)を使用し、改行で各セクションを明確に分けます。歌詞プロンプトのサンプルはこちら

 

実際に試してみた結果

ウェブ上のデモを用いて実際に楽曲を生成してみると、約30分の時間がかかりました。個人で高性能なGPU環境を持つ場合は問題ありませんが、一般ユーザーにとっては実用的とは言えません。

公式推奨スペック:80GB以上のメモリを搭載したGPU(H800、A100、または複数のRTX4090をTensor Parallelで使用)

 

カントリーとブルースの要素を持つ男性ボーカル、ギターとピアノの伴奏

スキャットとボーカルジャズ

出典:https://map-yue.github.io/

 

3.YuEの技術的基盤―なぜ高品質な音楽生成が可能なのか―

出典:YuE公式サイト

YuEが従来の音楽生成AIと一線を画し、高品質な音楽生成を可能にしている背景には、いくつかの革新的な技術基盤があります。その核心となる要素について、これから解説していきます。
YuEの根幹を成すのは、Meta社が開発した大規模言語モデル「Llama」です。LLMは、膨大なテキストデータから言語の構造や意味を学習する深層学習モデルであり、近年、自然言語処理分野で目覚ましい成果を上げています。YuEでは、このLLMの高度なテキスト理解能力を音楽生成に応用しています。ユーザーが入力する歌詞やジャンル指定などのテキスト情報は、LLMによって深く解析され、音楽的な意図やニュアンスが抽出されます。LLMは、歌詞の感情、リズム、テーマなどを理解し、それらを音楽的な要素(メロディ、ハーモニー、リズム、楽器編成など)へと変換する役割を担います。これは、ChatGPTなどのテキスト生成AIと同様の機構であり、テキスト情報を言語として理解し、それに応じた出力を生成するというLLMの強みを活かしています。

また、YuEは、音楽をトークンと呼ばれる離散的な単位に分解して処理します。これは、自然言語処理においてテキストを単語や文字などのトークンに分割するのと同様の発想です。歌詞、楽器、リズム、音高、音色など、音楽を構成するさまざまな要素がトークン化され、モデル内部ではトークン列として音楽が表現されます。このトークンベース処理により、複雑な音楽構造や長い楽曲も比較的容易に扱うことが可能になります。

従来の音楽生成AIの多くは、楽器パート、ボーカルパート、歌詞などを別々に生成し、後から単純に合成する方式を採用していました。この方式では、各パート間の一貫性や協調性が損なわれやすく、音楽全体として不自然な印象を与えることが課題でした。
YuEは、この課題を克服するために、革新的なデュアルトークン技術と並列処理を導入しました。この技術では、ボーカルトークン、インストゥルメンタルトークン、テキストトークンなど、異なる種類のトークンを同じタイムステップで並列に処理します。これにより、ボーカルと伴奏が互いに影響し合いながら、かつ同期して生成されるため、音楽的な一体感と自然な流れが生まれます。

YuEは、Stage-1言語モデルとStage-2言語モデルという、2段階の言語モデルで構成されています。

  • Stage-1言語モデル: 歌詞、ジャンル指定などの入力情報に基づき、音楽の基本的な構造と主要な要素(メロディ、リズム、ハーモニーの骨格など)を生成します。この段階では、音楽の全体的な方向性や構成が決定されます。
  • Stage-2言語モデル: Stage-1で生成された音楽情報をさらに洗練させ、音楽的な細部と表現力を高めます。具体的には、楽器の音色、ボーカルのニュアンス、音楽的なダイナミクス、細かなリズムの調整など、より音楽的なクオリティを高める処理が行われます。

この2段階構成により、YuEは音楽の全体的な構造と細部の表現力の両立を実現しています。Stage-1で音楽の骨格を作り、Stage-2で肉付けと仕上げを行うことで、洗練された高品質な音楽出力が可能になります。

最終段階として、YuEは生成されたトークン列をオーディオ信号に変換します。この変換プロセスには、高度な音声合成技術が用いられ、トークン列から自然でリアルな音声波形が生成されます。

特筆すべきは、YuEが歌声(ボーカル)と伴奏(インストゥルメンタル)のオーディオ波形を分離して出力できる点です。これにより、ユーザーは生成された音楽をボーカルパートと伴奏パートに分けてダウンロードし、それぞれを個別に利用したり、編集したりすることが可能になります。

 

4.徹底比較 YuE vs Suno AI―オープンソース vs 有料モデル、あなたに最適なのは?―

出典:SunoAI公式サイト

音楽生成AIの世界で、今、最も注目を集める2つのモデル、それがオープンソースの YuE と、有料モデルの Suno AI です。どちらも驚くほど高品質な音楽を生成できますが、そのアプローチや特徴は大きく異なります。

アメリカのスタートアップ企業が開発した Suno AI は、Webブラウザ上で誰でも手軽に、そして高音質な音楽生成を体験できる、有料の音楽生成AIです。洗練されたインターフェースとシンプルな操作性が特徴で、プロンプト入力からわずか数秒~数十秒で楽曲が完成します。

Suno AIの料金プランは、無料のベーシックプランプロプランプレミアプランの3段階に分かれています。ベーシックプランは、月に10曲まで生成可能ですが、非商用利用に限られ、生成された楽曲の著作権はSuno AIに帰属します。一方、プロプラン(月額10ドル)では、月に500曲まで生成可能となり、生成された楽曲の商用利用と著作権がユーザーに認められます。さらに、プレミアプラン(月額30ドル)では、月間2000曲の生成に加え、生成速度の向上や、より高品質な音楽生成が期待できます。

実際にYuEとSuno AIの両方を試作してみると、そのどちらもが、驚くほど高性能である事実に衝撃を受けます。しかし、両者を比較すると、明確な違いも浮かび上がってきます。Suno AIがプロンプト入力から数秒~数十秒で楽曲を生成するのに対し、YuEはWebデモ環境では30分もの時間を要します。この生成速度の差は、Suno AIの手軽さを際立たせる大きなポイントです。しかし、もし高性能なGPU環境を自前で用意できるのであれば、YuEも高速に動作させることが可能です。そして、YuEの最大の魅力は、無料で商用利用が可能なオープンソースモデルであるという点でしょう。また、YuEは高音域のボーカル表現に優れていると感じましたが、Suno AIはアメリカ発のAIという背景も影響しているのか、オートチューンを多用したヒップホップなどの低音域の表現に強みを発揮するように感じられました。さらに、SunoAIは、手軽さと、生成速度、さらにExculsive style や Persona といった高度なカスタマイズ機能を搭載し、プロンプト次第で多様な音楽スタイルを生成できます。

SunoAI  デモ音源「HipHop」

出典:https://suno.com/

YuE デモ音源「Hiphop」

出典:https://map-yue.github.io/

 

5.YuEを使う前に知っておくべきこと―注意点とライセンスを解説―

YuEは、Apache License 2.0というオープンソースライセンスの下で公開されており、その自由度の高さこそが、YuEの大きな魅力の一つです。このライセンスのおかげで、誰もがYuEを無料で利用し、商用利用することも可能になっています。開発チームも、「私たちはこのモデルから利益を得ることは一切考えていません。YuEが、人間の創造性をより豊かにするためのツールとして活用されることを心から願っています。」と述べており、そのオープンな精神がYuEの根底に息づいています。

  • 商用利用について:YuEで生成された楽曲は、商用利用が可能です。動画コンテンツのBGMや楽曲販売など、幅広い用途にご活用いただけます。
  • 著作権に関する注意:YuEは高度なAI技術を搭載していますが、生成される楽曲が既存の著作物と類似する可能性も排除できません。商用利用を検討される際は、著作権侵害のリスクを避けるため、事前に生成された楽曲の独自性を確認するなど、適切な措置を講じてください。著作権侵害に関する責任は、利用者ご自身に帰属します。
  • 利用者の責任と免責事項: YuEは強力なツールであり、その利用は利用者の責任において行われるべきです。違法行為、悪意のある行為、非倫理的な行為など、不適切な利用は絶対にお控えください。YuEモデルの誤用、または生成されたコンテンツの利用によって生じたいかなる結果についても、開発チームは一切の責任を負いません。

 

まとめ:YuEによる音楽AI改革

YuEの登場は、まさに音楽生成AIの民主化を推し進める、画期的な一歩と言えるでしょう。オープンソースとして公開されたことで、誰もが無料で、かつ商用利用も可能な、高性能な音楽生成AIを手にすることができるようになりました。これまで、音楽制作は専門的な知識や高価な機材が必要とされてきましたが、YuEは、その壁を大きく取り払い、すべての人に音楽創造の扉を開いたのです。

もちろん、既存の有料AIモデルであるSuno AIと比較すると、得意とする音楽ジャンルや生成速度、カスタマイズ性など、異なる特徴が見られます。例えば、Suno AIはヒップホップなどのジャンルでより洗練された出力を得られる場合もありますし、YuEは特にアジア民謡のような音楽で独特の魅力を発揮するかもしれません。どちらのAIが優れているか一概に断言することはできず、ユーザーそれぞれの目的や好みに合わせて選択することが重要でしょう。また、YuEはWebデモ環境では生成に時間がかかるものの、高性能な環境下では高速な動作も期待できます。

YuEの登場は、まだ始まったばかりの音楽生成AIの進化を、さらに加速させるでしょう。個人的には、この音楽生成AIにより、音楽業界へ震撼させるのではなく、より人に近い機能を持った人工知能AGI、ロボットの未来への一歩になるのだと思います。ぜひ、あなた自身の手でYuEを体験し、その革新的な音楽生成能力に触れてみてください。そして、今後のAI技術がもたらす音楽の未来に、共に期待していきましょう。

参考文献