画像・音声xAI
音声認識・音声合成
製品/サービス
Google Cloud Speech-to-Text
Google Cloud Speech-to-TextはGoogle Cloud Platformで提供されている音声認識APIです。125以上の言語や方言に対応しています。ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。
Microsoft
Azure Cognitive Services (Speech Services)
Speech ServicesはMicrosoftが提供するAzure Cognitive Services(意思決定、言語、音声、視覚、Web検索といった分野をカバーする包括的なAIサービス)に含まれる音声認識サービスです。Speech to Text、Text to Speech、Speech Translationといった機能があり、音声からテキストへの変換、音声合成、音声翻訳といった処理が可能です。
Amazon
Amazon Transcribe
Amazon Transcribe はAWSで提供されている自動音声認識サービスです。Amazon Transcribe は、カスタマーサービスの通話の文字起こし、クローズドキャプションや字幕の自動作成、完全に検索可能なアーカイブを作成する際におけるメディア資産のメタデータの生成に使用できます。
IBM
IBM Watson Text to Speech
Watson Text to SpeechはIBMの提供している音声合成サービスです。テキストから人間のような音声を合成でき、複数の言語やトーンでユーザーとやり取りが可能です。
アドバンスド・メディア
AmiVoice 音声認識API
AmiVoice 音声認識APIはアドバンスド・メディアが提供している音声認識APIです。クライアントアプリケーションに特別なライブラリを組み込むことなく、音声認識機能(リアルタイム認識・バッチ認識)を実装することができます。様々なシーンやビジネスで使用できる「汎用エンジン」と専門用語や業界用語に特化した「領域特化型エンジン」が用意されています。
HOYA
Read Speaker
ReadSpeakerはHOYAの提供している音声合成ソフトウェアです。20言語以上に対応した多数の話者をラインナップし、感情表現も可能です。