![]() | ||||
平成11年5月27日 | ||||
日本電信電話株式会社 | ||||
人間の言葉に臨機応変に応対するコンピュータを開発 人と自然に会話するコンピュータ実現への第一歩 | ||||
NTTは、自然な会話で予約や検索ができる音声対話コンピュータ、DUG-1(Dialog Understanding and Generation -1、ダグワン)を開発しました。 自然な会話を実現するには、人間の言葉に臨機応変に応対することが不可欠です。それを実現するため、開発したDUG-1は「逐次理解」と「逐次生成」の二つの機能を備えています。 逐次理解では、人間の言葉を短い区分である文節の連続として捉えます。そして各文節が話されるごとに、それ以前に話されていた言葉との関係を計算し、その時点での意味を理解します。 逐次生成では、言葉の生成時に自分自身でどこまでの情報を伝えたかを管理しつつ、短い言葉で情報を伝えていきます。 これらの働きによって、従来の音声対話コンピュータが抱えていたさまざまな問題を解決しました。まず、これまでの音声対話コンピュータでは、人は自分の話をコンピュータが理解したかどうかわからないまま話を続けなくてはなりませんでした。DUG-1 は人が話している途中であっても、話を理解した時点で相槌をうってくれます。また、これまでは一旦コンピュータが話し始めると、話し終わるまで人間の話しかけ(割り込み)を受け付けないために、人がその時点で知りたい情報をなかなか得ることができずイライラすることがありました。DUG-1は逐次理解および逐次生成によって、コンピュータが話している途中でも、人の側が話しかけるとその時点で人が最も知りたい情報を即座に伝えることができます。 NTTは今後も研究開発を進め、日常会話による情報検索システム、意思決定支援システムなどへと発展させていく予定です。なお、この研究はNTTコミュニケーション科学基礎研究所の中野幹生研究主任と堂坂浩二主任研究員が中心になって行いました。
音声による対話は、人にとって最も日常的なコミュニケーションの手段です。音声による対話がコンピュータとの間でできるようになれば、人が特別の操作法を学ばなくても人とコンピュータとの自然なインタフェースを実現できます。そのため、コンピュータによる音声対話の研究は、これまで多くの研究者によって取り組まれてきました。しかし、従来の音声対話コンピュータによる入力システムでは、主にコンピュータからの文字や音声による定型的な問いかけに対して人が答えるという形式が一般的でした。これでは、人間の考えが曖昧な場合には、コンピュータがあらかじめ用意した問いかけのパターンや順序にうまく当てはまらないため、対話が途絶えてしまいます。また、この問題を解決するため、通常の話し言葉を受け付ける音声対話コンピュータも提案されていますが、人が一つの文を終わりまで話さないとコンピュータの意味理解が完了せず、臨機応変な応対は不可能でした。
1.話し言葉を理解する新方式「逐次理解方式」の開発・適用(図1) 日常会話における人間の発話(言葉によって情報を伝えようとすること)を観察してみると、発話の途中段階では解釈に曖昧性が生じていることがわかります。そのため従来の音声対話コンピュータは、人間の発話を最後まで受け取ってからその意味の理解を行っていました。しかし、これではトランシーバーで会話するように、相手が話し終えないともう一方が話し出せないという不自然さが解消できません。今回DUG-1のために開発・適用された「逐次理解方式」は、文の長さや順番、肯定/否定文などの種類に基づき、発話途中での曖昧性を時々刻々解消しながら対話理解を進めるという方法を採っています。これによって、コンピュータは入力されてくる人間の話し言葉の内容を、その時点ごとに理解することができます。DUG-1は、人間の顔を模したグラフィックがうなずいたり首を傾げたりして、話を理解したか否かを発話の最中に話し手にフィードバックする機能を備えています。これは逐次理解方式を適用することにより可能となったもので、人はコンピュータの理解の度合いを確認しながら安心して話を進めることができます。なお、音声を文字に変換する部分にはNTTサイバースペース研究所が開発した音声認識技術を使用しています。
コンピュータ側が発話している最中に人間の側が割り込める、というのも円滑な対話の条件です。人間同士の対話を分析してみると、「対話に用いる言葉では、一回の発声の中では伝えたいことはせいぜい一つしかない」ということがわかりました。DUG-1の発話方式はこの分析結果に基づいて開発されたもので、短い言葉で情報を表現していきながら、コンピュータがどこまで表現し終わったかを逐次管理します。この新しい方式を「逐次生成」と呼びます。そのため、人からの発話の割り込みがあった場合も、伝達済みの情報と人間の発話の意味を短時間で照合し、その時点で人が最も知りたがっている情報を即座に答えられるよう応対を変更することが可能です。
開発したDUG-1は、日常会話による情報検索システム、意思決定支援システムなどに発展できると考えられます。NTTでは、対話内容の拡張などを通じて本音声対話コンピュータの応用範囲をさらに広げていくための研究開発を進めていきます。 | ||||
別紙 1.新しい音声理解方式「逐次理解方式」 2.新しい発話生成方式「逐次生成方式」 | ||||
| ||||
![]() NTT NEWS RELEASE |