音声認識とは、音声からテキストを生成する技術です。
スマートフォンやスマートスピーカーなどで馴染み深くなっている分野かと思います。OK. Googleの声で始まるCMのように、Google Home、AppleのSiriや、Amazon Alexaなどが有名でしょう。
生活にすっかり取り込まれている音声認識ですが、今日はその技術の概要を見ていきましょう。
この分野は、古くからあり、1952年にベル研究所が、数字の音声認識装置を開発したことから、特に前半の部分は昔からの電話の時代から始まったものと言えます。そこから後半に向けて次々と進化を遂げています。
AIを使った音声認識は、大きく次のような流れで行われます。
では、この流れにのって、各要素技術を見ていきましょう。
1、音響分析
入力された音声データをデジタル化します。このデータを分析し、特徴量を抽出し、数値化を行う手順です。
出典)CC BY-NC-ND
2、音響モデル
抽出された特徴量が、どの音に近いのかを過去の学習パターンに合わせて整合し、決定します。
3、言語モデル
データから単語のつながりを予測判定します。過去の学習データから使用する単語の出現率をもとに算出して、文章を組み立てていきます。
4、発音辞書
言語モデルの単語と音響モデルを結びつけます。そのために使用されるのが発音辞書です。
このようにして音声がテキストへの変換をされていきます。
また、ディープラーニングが登場しとりこまれてくることで、音声認識も発展を遂げており、膨大なデータの特徴量や予測をする部分で利用をされています。
さらにテキスト化されたデータは、自然言語処理(NLP)や自然言語理解(NLU)の技術とも組み合わされることで、コールセンターでの感情認識や、自動運転における音声認識など様々な活用がされるようになってきています。
このようにAI活用の分野では画像認識と同様、さらに期待が寄せられています。
allAi.jpでは最新の情報をお届けしていきますので、どうぞよろしくお願いいたします。