News Letter
汎用音声言語処理系SOLON-GT*1の実現
SOLON-GT - A general-purpose spoken language processing system
■SOLON-GTとは?
コミュニケーション科学基礎研究所では、音声を聞き取って文字列に変換する音声認識処理と、その結果に対して行う整形、要約、理解等の言語処理を一括して実行することができる汎用音声言語処理系 SOLON-GTを開発しました。
音声認識を利用する多くのアプリケーションは、音声を文字列に変換するだけでなく、その文字列を要約したり理解することを目的にしています。しかし、音声認識だけでは周囲の雑音や不明瞭な発音等の影響による認識誤りの発生を避けることはできません。誤った認識結果を言語処理に入力すると更に言語処理の誤りも誘発されます。このように順次処理を適用する方式では、最終的な処理結果に至るまでに誤りが伝播、拡大してしまう問題がありました。一方、音声認識は基本的に話し手が話し終えるまで結果を確定できないため、後に続く言語処理は音声認識結果の確定を待たなければならず、処理の遅れも問題でした。
SOLON-GTでは、重み付き有限状態トランスデューサ(WFST*2)と呼ばれる統一的な処理記述方式によって音声認識も言語処理も記述します。更にそれらWFSTを一体化(合成)することで、すべての処理を一括して実行可能にします。この一括処理では、音声認識と言語処理の知識を総合して最も適切な処理結果を求めるため、誤りの伝播・拡大の問題はありません。また、処理遅れの問題もありません。
*1SOLON-GT: Spoken-language-processing Oriented Library based on Optimized transductive Networks with Generalized Transductions
*2WFST: Weighted Finite-State Transducer
■WFSTの高速On-the-fly操作技術
WFSTとは、複数の節点とそれらを矢印(辺)で結んだネットワークによって、ある入力系列を別の出力系列に変換する手順を模式的に表したものです。WFSTは音声認識における「音声信号⇒音素列⇒単語列」のような変換規則を表現でき、更に「話し言葉⇒書き言葉」のような言葉の変換規則も表現できます。各段階の変換処理を一つのWFSTで表し、それらを合成・最適化することで、「音声信号⇒書き言葉」のような一括変換を実現するWFSTを構築できます。しかし、複数のWFSTを合成すると、その節点や辺の数は掛け算的に増加するため、多くの複雑なWFSTを合成することは困難でした。私たちは、WFSTを事前に合成、最適化せず、入力音声を処理しながら必要に応じて部分的に逐次合成・最適化する高速On-the-fly操作技術を開発し、これにより多数の複雑な変換を一括処理できる汎用音声言語処理系SOLON-GTを実現しました(図1)。図1 SOLON-GTの音声要約システムへの応用例
研究部門 :コミュニケーション科学基礎研究所 メディア情報研究部
参考資料 : T. Hori and A. Nakamura, Proc. Interspeech 2005, pp. 557-560 (2005).
お問い合わせ先:先端技術総合研究所 企画部 情報戦略担当
http://www.ntt.co.jp/sclab/contact/
2009(平成21)年3月11日 NTT先端技術総合研究所