音声生成AIの最前線:Google DeepMindの最新技術

1.はじめに

本記事では、Google DeepMindによって開発されている、音声生成AI技術についてご紹介します。近年の生成AIの進化は著しく、特にテキスト生成AIは多くの人々に浸透し、日々の業務の中で利用されてきているのではないでしょうか。また、最近では画像生成AIも進化を遂げており、以前よりも高精度、高品質な画像を生成できるようになってきています。こうした生成AIに匹敵する勢いで、音声生成AIも急速に進化しています。今回の記事では、Google DeepMindが開発した音声生成技術に焦点を当てていきます。

Google DeepMindの公式ブログはこちらから


2.背景技術

ここでは、今回の研究成果を得るに至った、主要な技術的基盤について、AudioLMSoundStreamSoundStormの3つの背景技術を中心に解説します。特にSoundStreamとSoundStormは名称が似ていて混乱しがちなので、注意が必要です。

 

  • SoundStream

SoundStreamは、音声を効率的に圧縮・再構築するニューラルオーディオコーデックです。ニューラルオーディオコーデックとは、ニューラルネットワークを使って音声データを圧縮・復元する技術のことを指します。この技術により、音声の品質を維持しながらデータサイズを小さくすることが可能となり、自然な音声再生を実現しています。

 

  • AudioLM

AudioLMは、音声生成のための新しいアプローチで、音声データを言語モデルと同様の手法で処理する技術です。具体的には、音声を離散的なトークン(符号)に変換し、そのトークン列を予測することで、自然で一貫性のある音声を生成します。この方法により、短い音声プロンプトから始めて、長時間にわたる高品質な音声を生成することが可能です。

AudioLMの特徴の一つは、音声の長期的な構造を維持しながら、高品質な音声を生成できる点です。例えば、話者の声質や抑揚を保ちながら、文法的かつ意味的に適切な音声を生成します。さらに、音声データのトランスクリプト(音声データを書き起こした文字情報)やアノテーション(データに付加された注釈やメタデータ)を必要とせず、純粋な音声データから学習できるため、幅広い応用が期待されています。

 

  • SoundStorm

以前のAudioLMの研究では、音声生成は大きく2つのステップに分けて進められていました。一つ目はセマンティックモデリングと呼ばれ、意味のある音声のかたまりを作るプロセスで、音声の内容や抑揚を捉えたトークンを生成します。2つ目のステップは音響モデリングと呼ばれ、生成されたセマンティックトークンを使って、実際の音に変換するトークンを作り出します。SoundStormは2つ目のステップを改善する技術となっています。この技術により、高速に長い音声サンプルを生成することが可能になります

SoundStreamは2021年、AudioLMは2022年に発表された技術でした。これらの技術がSoundStormによって拡張され、従来のテキストベースの自然言語処理技術を音声における自然言語処理技術に適用できたようになったのが、本研究の大きな成果であると言えます。つまり、SoundStormという技術が今回の研究の核心となっているのです。


 

3.現状における研究成果

公式ブログでは、最近の技術的成果としてNotebookLM Audio OverviewsIlluminateの2つが紹介されています。それぞれについて簡単に紹介していきます。

 

  • NotebookLM Audio Overviews

NotebookLMは、Googleが提供するAI搭載のノートサービスです。ユーザーがアップロードした文書やウェブサイトのURLをもとに、AIが内容を解析し、要約や質問への回答を提供してくれるサービスとなっています。このサービスでは、主にGoogleの開発したマルチモーダルAI「Gemini 1.5」が利用されています。

こうしたAIの機能を搭載したノートサービス「NotebookLM」に新機能として搭載されたのが、音声の自動生成技術です。それがAudio Overviewという機能で、資料の内容に基づいて2人のAI話者が対話形式で解説する音声ファイルを生成してくれる機能となっています。気になる方は、以下のリンクからNotebookLMを試してみるといいでしょう。

Google NotebookLMの利用はこちらのリンクから

 

  • Illuminate

Illuminateは、研究論文ついて2人のAI話者がディスカッションをする音声コンテンツを提供します。音声で議論を聞くことで、論文の内容の深い理解に繋げるというサービスになっています。現在は既存のコンテンツのみ視聴可能ですが、順番待ちリストに参加することで、自分の好きな音声コンテンツを生成できるようになります。

既存の音声コンテンツを視聴した感想としては、全体的には非常にレベルの高い音声技術だったと言えるでしょう。部分的に話す速度が変わるところも含めて、人間らしさが表れていたのではないかと感じます。現在では英語のコンテンツのみとなっていますが、気になる方は以下のサイトから試してみるといいでしょう。

Google Illuminateの体験はこちらのリンクから

 

これらのサービスの他に、公式ブログ内ではAIで生成した短い音声コンテンツがいくつか紹介されています。2人の話者が相槌を打ったり、笑い声を交えたりしながら、自然な会話をしているのがわかります。こうした点からも、音声生成AI技術のレベルの高さを感じます。


 

4.まとめ

この記事では、最新の音声生成AIとしてGoogle DeepMindの研究をご紹介しました。この研究成果の発表では、最新の音声生成技術を支える背景技術と、いくつかの技術的成果物が紹介されていました。背景技術の面では、SoundStormという基盤技術によって過去の技術を拡張できた点が革新的でした。技術的成果物の面では、自身でAIによる音声コンテンツを作成できるようになっていました。

音声生成AI技術は、テキストや画像などといった他の生成AI技術と比較して、発展の遅れている分野でしたが、今後は大きく成長する分野となりそうです。話者の増加や流暢さの向上などといった音声生成技術の拡張や、動画生成AIと音声生成AIの組み合わせなどが今後の注目ポイントとなるでしょう。

関連するサービスとして「NotebookLM」も取り上げていますので、是非ご覧ください。

NotebookLMとは?無料でできる情報整理とデータ活用術 – allai.jp


 

参考文献

Pushing the frontiers of audio generation