平成10年2月26日 日本電信電話株式会社 適用範囲が広い音声認識エンジンソフトウェアを開発 −携帯電話の音声にも対応可能− NTTでは、音声でコンピュータを操作できる音声認識エンジンソフトウェアを開発し ました。 今回開発した音声認識エンジンソフトウェアは、人間の音声からその人が何を言って いるのかをコンピュータが認識するもので、声の指示によって動作するさまざまなシス テム構築の核となる部分です。 本ソフトウェアは、直接マイクから入力される音声だけでなく、電話経由の音声にも 高い認識率をもつことに加え、話者認識機能、雑音対策、話者適応機能を備えている点 が大きなポイントです。また、専用ハードが不要なソフトウェアで、かつ高速・高精度 で省メモリを実現しておりパソコン上でも動作するという高い特徴をもっています。さ らに種々のOS環境に対応可能である点も広い適用範囲を支える大きな要素と言えます。 NTTでは今後、さまざまな条件下での認識性能の安定性向上を図るとともに、本シス テムを利用したアプリケーションの開発・実用化に向け、研究開発を続けていく予定で す。 <開発の背景> 音声認識は、コンピュータなどとのマン・マシンインタフェースを良好なものとする ために大きな威力を発揮する技術として広く研究開発が行われています。しかし、コン ピュータに人間の音声を正しく認識させるにはまだ解決すべき技術的課題が多く、現在 実現されている音声認識システムは用途ごとに機能・性能を特化したものであったり、 専用のハードウェアを必要としたり、特定用途ごとに個別のチューニングをしなければ 性能を発揮できないというのが現状です。 今回の音声認識エンジンソフトウェアは、電話を経由した音声に対し、自動応答サー ビスを提供するという用途を重視して研究開発されたものです。 <技術のポイント> 1.電話音声に対する高い耐性 1万人以上の音声サンプルを適切に分類・整理した音響特徴(モデル)を学習させる ことで、従来の音声認識技術では十分な精度が得られなかった、情報量の欠落が多い電 話音声、特に携帯電話の音声に対しても安定した性能を発揮します。また、ある程度の 雑音環境下からの音声に対しても認識率を維持する雑音適応機能を装備しており、電話 の使用フィールドの拡大も考慮された設計となっています。 2. フレキシブルなアプリケーション展開性 使いやすいAPI(Application Programming Interface)によってさまざまなアプリケ ーションに対応可能です。また、アプリケーションを開発する側が、音声認識技術に精 通する必要もありません。また、Win95/NT、UNIX、Linux、MacOSに対応しており 、開発や動作環境を選びません。 3. 話者認識機能を装備 通常の音声認識エンジンソフトウェアが対象とする「何を話しているか」の認識に加 え「誰が話しているか」を認識する機能を備えています。これによって音声による簡単 なセキュリティチェックも可能になります。 4. 話者適応機能を装備 認識率が低い話者の音声でも、精度を向上させる機能を備えており、誰からの音声に も対応可能です。 <今後の展開> NTTでは今後、音声入力の変動に対するさまざまな条件下での認識性能の安定性向上 と文章入力時における高速高精度化を図るとともに、本音声認識ソフトウェアを利用し た電子秘書をはじめ、音声による自動応答電話サービス、コンピュータ操作、データ入 力等、アプリケーションの開発・実用化に向け、研究開発を続けていく予定です。
