ページの先頭です。
コンテンツエリアはここからです。

研究紹介

第19回 HTML5音声認識

今回開発されたHTML5音声認識についてのご紹介です。

研究Q&A

  • Q.これはどんな技術なのですか?
  • A.HTML5対応ウェブブラウザからの音声入力を可能にする技術です。
    ユーザにとっては、端末・OSを問わずに、従来通りウェブコンテンツにアクセスするだけで、音声認識を利用した入力が可能となります。
  • Q.他の技術とはどこが違っているのでしょうか?
  • A.従来、ウェブブラウザからの音声入力を実現するには、専用のソフトウェアを事前にインストールしたり、対応するブラウザが限定されるという問題がありました。本技術では、HTML5(JavaScript API)を活用することで、事前準備の必要なしに様々なブラウザで動作する方式を実現しています。
    さらに、発話状況に応じて変化する音声区間密度を独自の発話モデルで処理することにより精度の高い音声区間検出を実現し、、雑音耐性を大幅に強化したことで高精度な音声認識が可能です。
  • Q.この技術が使われると、どんな役に立つのでしょうか?
  • A.様々なウェブアプリケーションで音声による操作が可能となり、手を使えない状況やキーボード入力が苦手な方でも簡単にウェブアプリケーションが利用できるようになります。
    また、雑音に強い音声区間検出技術によって、例えば、駅の雑踏や自動車内など、様々な利用環境で高精度な音声認識が可能となり、利用シーンの拡大が見込めます。
  • Q.最後にひとことどうぞ。
  • A.本技術に基づいた日本語音声認識サービスの提供が近々予定されています。
    今後、多言語への拡大、認識精度のさらなる向上に取り組んでまいります。

どうもありがとうございました。利用者は特別な準備が不要で音声入力が可能になる凄い技術なのですね。
技術開発の詳細とサービス提供についてはNTTホームページのニュースリリースをご覧ください。

技術キーワード

  • HTML5
  • 音声認識
  • 音声区間検出

カテゴリーのトップへ戻る

フッタエリアはここからです。