ページの先頭です。
コンテンツエリアはここからです。

感情を認識し自然な対話を実現するAI

vol02
会話の音声認識からスマートフォンのエージェントへ
NTTメディアインテリジェンス研究所 青野裕司
NTTメディアインテリジェンス研究所 小橋川哲

感情を認識し自然な対話を実現するAI技術02:会話の音声認識からスマートフォンのエージェントへ

「ヒト対ヒト」のコールセンターから
「ヒト対機械」のスマートフォンへ

青野 「読み上げ音声の認識」の次はどの領域にどこに行くんだ、という議論になった時に、NTTグループの一員として、NTTが一番強みが出せる領域というところで、コールセンターをターゲットにしました。グループ内では、それこそ万単位のオペレーターが働いていますから。事業との関連性に着目してはじめたことではありますが、今思えば、大量の生のデータに触れられることは大変大きな価値でした。特に今の時代は、データが命です。コールセンターだからこそ、大量にデータが集められるし、自社の事業改善にも繋げられて、そのノウハウが外にも展開できる。そのことが、「ヒト対ヒト」の音声認識から「ヒト対機械」の音声認識、すなわち今話題となっているマンマシンインターフェースやエージェントサービス(※1)といった技術への活用にもつながっていったのです。

――コールセンターの技術開発が、別の領域へと広がっているということでしょうか?

小橋川 はい。今は「ヒト対機械」の音声に対して、「喜び」や「怒り」、「悲しみ」といった感情についても抽出できるようになっています。さらに、話者の属性情報、たとえば大人の男性なのか女性なのか、子どもなのか、といった話者の特徴を取得することもできるようになりました。話者の属性情報は、コールセンター向けではなくて、われわれがロボットとかエージェントと呼んでいるサービス、スマートフォンやAIスピーカーに載っている対話サービスへの活用可能性を探っています。たとえば話者が子どもだったら、子どもに優しいコンテンツを提示したり、推定した属性情報に応じて買いそうなものを会話の中に織り交ぜることによって購買意欲を高めたり、といったことが考えられます。

――ロボットやエージェントの技術開発は、どのような背景から生まれたものなのでしょうか?

青野 スマートフォンの浸透です。スマートフォンは私たちのライフスタイルを大きく変えました。同時に、音声認識にとってもすごく親和性の高いデバイスの登場も意味しました。マイクと口の距離が近く、きれいに音が取れる。音声を使ったアプリケーションとかエージェントを実装するには非常にいいデバイスです。2012年ごろにスマートフォンが浸透し、音声認識型のエージェントサービスがいくつか先行して発表された時点で、私たちはヒト対ヒトの音声認識では世界でも類を見ない実績がありましたが、そこからヒト対機械の音声認識技術開発についても急いでキャッチアップし、かつオーバーテイクしていかないといけない。そちらにもリソースを振り向けようと動き出しました。

※1:エージェントサービス
ユーザーが端末に音声や文字入力で「知りたいこと」や「したいこと」を入力すると、AIによってその「意図」を把握し、適切な機能や情報につなげる機能のこと。

誰にも優しい
マン-マシン・インターフェースへ

――その時、コールセンターの「ヒト対ヒトの音声認識」で得られた知見が、「ヒト対機械」に活きたのでしょうか?

小橋川 もとになっている音声認識のエンジンは同じなので、音声認識モデルのチューニングについては共通で使えました。また「ヒト対ヒト」で得られた知見を活かすという意味で言うと、感情認識など「ヒト対ヒト」で培ったモデル構造をエージェントでも活用しています。また、相手が話し終わったところを検知する技術も開発していて、「ヒト対ヒト」の会話の中で得られた特徴をもとに判断しています。どのタイミングで相槌を打つのか、どのタイミングで話の終わりを検知するのかは、「ヒト対ヒト」の知見をベースにしています。

――そうすると、より自然なコミュニケーションができる、あるいは「感情を持った」エージェントができる?

小橋川 その可能性が今後広がってくると考えています。人間と人間の会話から出てきた知見やノウハウを、機械の方に持ちこんでいく、というイメージです。「マン-マシン・インターフェース」が、「マン-マンインターフェース」にどんどん近づいていくのではないでしょうか。

青野 ロボットやエージェントは過渡期にあると考えています。大きな可能性は感じているけれど、今までIT機器になじみのなかった高齢者などにとっては、なかなか難しい部分がある。思うようにレスポンスがなかったり、間が悪かったりする。そういうところは、人と人の会話から得られた知見を入れていかないといけない。たとえば相手が本当に話し終わった時に話しかけないと、相手の話をさえぎることになってしまう。「無音=話し終わり」ではありませんよね。少し考えているときだってある。だから、話し終わりがどこなのかを、文の意味からも判定しないといけない。今は、そうしたコミュニケーションの細かい部分のモデル構築に、ヒト対ヒトの会話で得られたものを逆輸入していこうというフェーズです。

研究を「やめない」ことが
私たちのミッション

――十数年前には「難しい」、「なぜやるのか」と言われていた自然対話の認識技術が、高いレベルで実現できただけではなく、それが横展開し、ロボットやエージェントの領域で世界と互角以上に闘うための技術へと広がっている。このことは、予想できましたか?

小橋川 僕はこれが研究所ならではの強みなんだと思っています。売れているもの、注目されているものに特化してしまうと、そこで終わってしまう。研究所では、いつも次の「弾込め」をしなくちゃいけない。蓄積した技術や知見をどう使うのか。「次の10年」を作らなくてはいけないんです。

青野 予想できたかというと、できていなかった。そうではなくて、待てたのがわれわれの勝因なんだと思います。2006年に研究を本格化させてから足掛け13年、社会に認められはじめたのは、この2〜3年です。その間「研究のリソースを他に振り向けたほうがいいんじゃないか」という意見もありましたが、それでもきっと必要とされる時期が来ると信じ、 研究を続けられたのが良かったのだと思います。研究所の技術って進みすぎているところがあるんです。売れる前にやめてしまった研究を、いくつも見てきています。信じて続けられることが重要です。ですからマネージャーとして私が考えるべきなのは、ポートフォリオをしっかり組むこと。「この研究はいつか日の目を見るはずだからキープしておこう」、という信念も必要なら、一方で「社会のニーズに応える、スマートフォン向けの研究を加速させよう」という柔軟性も必要なんです。今回、リソースを適切に配分しておくことで、息の長い研究を続けることの重要さを、実感しました。わたしの、そして研究所の大切なミッションは「やめない」ということなんだ、と。

前の記事へ
宮本勝
青野裕司

プロフィール
日本電信電話株式会社メディアインテリジェンス研究所主幹研究員。1999年NTTに入社。以来、歌声音声合成処理関連の研究に従事し、2005年NTTアドバンステクノロジに異動後、当該技術の商用化を推進。2009年NTT研究企画部門に異動、R&Dビジョンや研究開発計画の策定などに従事。2011年に研究所に戻り、現職。

関連リンク
メディアインテリジェンス研究所  
https://www.ntt.co.jp/md/
宮本勝
小橋川哲

プロフィール
日本電信電話株式会社メディアインテリジェンス研究所主任研究員。2002年NTTに入社。以来、音声言語処理関連の研究に従事。2013年NTT東日本ビジネス開発本部に異動後、オフィスやシニア向けのサポートサービス開発を推進。2016年に研究所に戻り、現職。

関連リンク
メディアインテリジェンス研究所  
https://www.ntt.co.jp/md/
  • corevo’s challenge
  • corevo’s challenge
  • corevo’s challenge
  • corevo’s view
  • corevo’s engineer
  • corevo’s engineer
  • corevo’s challenge
  • corevo’s view

ローカルナビはここからです。