AIが人間そっくりな音声を自動生成

カリフォルニア大学サンディエゴ校のコンピューターサイエンスの研究チームが、Apple社のSiriに代表されるデジタルパーソナルアシスタントなどのAIが生成する音声を、最小限の訓練で、より人間に近い表現豊かな声にする手法を開発しました。この方法は、学習データに含まれていなかった音声にも適用でき、スマートフォンや映画の吹き替え、自動翻訳などの改善にも役立つと考えられています。

従来の手法は次のような課題を抱えていました。特定の話者の表現力豊かな音声を生成するには、その話者の膨大な量の学習データが必要となります。また、数分間の学習データから音声を生成しようとしても、表現力のある音声にはなりません。

一方、今回開発された手法では、最小限のトレーニングで表現力豊かな音声を生成することができます。研究チームは、学習データに含まれる音声のピッチとリズムにフラグを立て、感情の変化をAIに理解させました。これによって、はじめて出会う音声であっても、最小限のトレーニングで、表情豊かな音声を生成できるようになったのです。