画像・音声xAI

音声認識・音声合成

製品/サービス

Google

Google Cloud Speech-to-Text

Google Cloud Speech-to-TextはGoogle Cloud Platformで提供されている音声認識APIです。125以上の言語や方言に対応しています。ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。

60分まで無料、それを超えると 0.006USD/15 秒から

製品ページへ ▶︎

 

Microsoft

Azure Cognitive Services (Speech Services)

Speech ServicesはMicrosoftが提供するAzure Cognitive Services(意思決定、言語、音声、視覚、Web検索といった分野をカバーする包括的なAIサービス)に含まれる音声認識サービスです。Speech to Text、Text to Speech、Speech Translationといった機能があり、音声からテキストへの変換、音声合成、音声翻訳といった処理が可能です。

1時間あたり112円/1,000,000 文字あたり448円から 無料時間あり

製品ページへ ▶︎

 

Amazon

Amazon Transcribe

Amazon Transcribe はAWSで提供されている自動音声認識サービスです。Amazon Transcribe は、カスタマーサービスの通話の文字起こし、クローズドキャプションや字幕の自動作成、完全に検索可能なアーカイブを作成する際におけるメディア資産のメタデータの生成に使用できます。

12 か月間、1 か月あたり 60 分無料で、それ以降は、ソーシャルメディアビデオ10秒あたり0.004USD

製品ページへ ▶︎

 

IBM

IBM Watson Text to Speech

Watson Text to SpeechはIBMの提供している音声合成サービスです。テキストから人間のような音声を合成でき、複数の言語やトーンでユーザーとやり取りが可能です。

1ヶ月500分まで無料、それ以降は2分2.24円

製品ページへ ▶︎

 

アドバンスド・メディア

AmiVoice 音声認識API

AmiVoice 音声認識APIはアドバンスド・メディアが提供している音声認識APIです。クライアントアプリケーションに特別なライブラリを組み込むことなく、音声認識機能(リアルタイム認識・バッチ認識)を実装することができます。様々なシーンやビジネスで使用できる「汎用エンジン」と専門用語や業界用語に特化した「領域特化型エンジン」が用意されています。

https://acp.amivoice.com/main/plan/

製品ページへ ▶︎

 

HOYA

Read Speaker

ReadSpeakerはHOYAの提供している音声合成ソフトウェアです。20言語以上に対応した多数の話者をラインナップし、感情表現も可能です。