ページの先頭です。
コンテンツエリアはここからです。

音声認識

人の発した音声を、単語、長文によらずテキストに変換できる技術です。
探索ネットワークやDeep Learningなどの革新技術により、膨大な音声データも高速にデコーディングが可能。
従来の音声認識技術をはるかに凌駕する精度を実現します。

音声認識の概念図 音声認識の概念図

WFST技術(weighted finite state transducer)により、1000万語という超大語彙から高速で最適な単語を選び出したうえで音声をテキスト化します。また、音声の特徴をDeep Neural NetworkというDeep Learningの技術を用いることで精緻に表現できるようになり、音声認識の精度を大幅に改善することができました。

要素技術

超大語彙高速
デコーディング技術

音響、音声認識、言語モデルが統合され、超大語彙を最適デコーディング

DNN音響モデル技術

音の特徴を深層学習により識別処理、高精度な音声認識を実現

雑音抑圧・発話区間検出技術

発話区間を検出、雑音を低減しクリアな音声認識を可能にする技術

利用シーン・サービス事例

コールセンタ支援

コールセンタ支援

膨大に蓄積した顧客の通話音声から雑音や不要情報を取り除き、効率的に情報をマイニング。顧客の潜在ニーズやサービスの課題発見に役立つ通話ログが作成できます。

音声エージェントやコミュニケーションロボット

音声エージェントやコミュニケーションロボット

人の自然な発話への音声認識の強みを活かし,ロボットやホームエージェントへの音声による入力を可能とし、より人間らしく親しみのあるインターフェースを実現します。

関連プロダクト