ページの先頭です。
コンテンツエリアはここからです。

感情を認識し自然な対話を実現するAI

vol01
AIが加速し、拡大する音声認識の技術
NTTメディアインテリジェンス研究所 青野裕司
NTTメディアインテリジェンス研究所 小橋川哲

感情を認識し自然な対話を実現するAI技術01:AIが加速し、拡大する音声認識の技術

「文字以外の情報」を
抽出する音声認識技術

――お二人が所属する「音声対話インターフェイスグループ」について教えてください。

青野 メディアインテリジェンス研究所内にある音声認識を研究しているグループが「音声対話インターフェイスグループ」です。私はグループリーダーとして、音声認識を共通テーマとするいくつかの研究開発を統括しています。われわれのグループはこれまで「人がしゃべった言葉を文字にする」ということを、長年研究開発してきました。その精度をいかに上げるかが唯一の命題だったのです。もちろん、精度を上げるための研究は今も継続していますが、近年、音声認識研究の領域にも競合が増えてきて、認識の精度だけでは差異化ができないという課題がありました。そこで、2年ほど前から、声には文字になる情報以外の情報もたくさん含まれているはずで、そういった「文字以外の情報」を、声の情報から抽出し、活用する技術を研究開発してほしいと、私からここにいる小橋川にお願いして、新しい研究チームを立ち上げ、今研究してもらっているのです。

――「文字以外の情報」と一口に言っても、様々な情報がありそうです。最初の研究テーマは、どうやって探し出したのですか?

小橋川 一番最初の研究テーマは現場のニーズから生まれました。コールセンターにおけるお客さまの「怒り抽出」研究です。実はこのテーマについては2009年頃から取り組んでいて、一定の知見も得られ、それなりに市場に認められるサービスを生み出すことができていました。しかしお客さまの怒りを抽出し、オペレーターを注意するだけでは、みんなのモチベーションが下がってしまう、という声が現場からあがっていました。逆にポジティブな情報である、お客さまの「満足」を捉えられないか、とずっと言われていたのです。でもそれは難しかったんです。「怒り」に比べると「満足」は、会話の中にあまり出てこない。100コール中1個、あるかないか。サンプルが圧倒的に少ないのです。しかし先述したように青野から差異化のミッションを与えられたこともあり、あらためて徹底的にデータを集めて、生の声をかなり分析したこと、また最新のディープニューラルネットワーク技術を導入することで、40個あまりの特徴をあぶり出し、きちんと使えるレベルに達したのが、この数年のことです。

関連リンク
対話音声からの怒り感情認識技術
http://www.ntt.co.jp/md/products/product_10.html

――「満足を捉える」というのはたいへん面白い視点ですが、具体的にはどういうことなのでしょうか?

小橋川 お客さまが満足している時の会話の状態には、いろんな特徴があります。私が個人的に一番面白いと思ったのは、オペレーターの発話の中に、 「とんでもないです」というような謙遜する言葉が出てくること。お客さまのお褒めの言葉や満足の感情を受けて、そういう言葉をあえて言ったりするんです。他にも、オペレーターのあいづちの声の高さがワンランク上がったりします。またお客さまも会話に乗ってくるので、お客さまのあいづちの回数が増えたりします。そういう特殊な変化が、満足している会話には現れているということを見つけ出したのが大きな成果です。

――そうした会話の特徴が、「満足」と関連していると、なぜわかるのでしょうか?

小橋川 最終的にはコンピュータで処理し、判断します。機械学習に投入して、その特徴が本当に「効いている」のか、つまりお客さまの満足と関連しているのかを判断させている。しかしその前にいかに有効な「仮説」を提示できるかが大きなポイントで、これはAIではなく、われわれ研究員が「満足している会話」とされるサンプルを実際に一つ一つ耳で聞いて提示しているのです。

関連リンク
メディアインテリジェンス研究所 音声認識
http://www.ntt.co.jp/md/products/product_33.html

コールセンターの会話の中から
「満足」を認識する

――「満足」という視点から研究のテーマを創り出していることは面白いですし、ポジティブな「いい話」ですね。

小橋川 技術開発の過程で、2箇所のコールセンターで評価トライアルをやりました。そのうち1箇所では実際に現場に導入させていただき「こんな精度で怒りや満足が出てくるんですけれど、どう使いますか」とヒアリングしたのですが、面白いアイデアを頂戴しました。オペレーターが気づいていないお客さまの怒りや満足を、統括するスーパーバイザーが拾い上げ、他のオペレーターに展開するという比較的スタンダードな使い方はもちろん、満足通話を集めて、表彰に使おうかというアイデアがあった。たとえば満足通話が出てきたら、花を壁に貼って、オペレーターの座席の島ごとで花の数を比べるとか、センター全体でありがとうのお花を咲かせようというイベントを開催するとか。

――それは面白いですね。

小橋川 オペレーターも人間ですから、スキルにすごく幅があるんです。新人のオペレーターとか、あまり成績がよくないオペレーターは、お客さまを怒らせていることに気づかず、同じような応対を続けてしまうということが、データからも判明しています。ですから成功体験を説教臭くなく共有するために、満足会話の抽出を活用する、という視点なのだと思います。もう一つAIによってもたらされることとして「統一の基準」ができることが大きいという話もいただきました。人間が評価すると、どうしても採点者によって甘い、厳しいがある。中には自己申告の場合もあったりと、基準が共有されませんでした。AIによって、1個の基準で判定できるのはありがたいとも言われました。

関連リンク
NTTテクノクロス ForeSight Voice Mining
https://www.ntt-tx.co.jp/products/foresight_vm/

NTTの日本語解析の歴史が
音声認識に役立っている

――そういう意味では、コールセンターは音声認識の知見を蓄積する場所として最適だったのではないですか?

小橋川 コールセンターとの連携は、2006年からはじめています。それ以前のビジネスでの利用場面では「音声認識=読み上げ音声の認識」だと思われていた時代です。ニュースの字幕化などマイクや受話器に向かって、ゆっくりはっきりと話して、ようやく認識できる。ところが、コールセンターは「ヒト対ヒト」の会話です。会話のスピードも早いですし、発語もはっきりしない。いわゆる「自由発話」の世界、非常に難しい領域にシフトしたわけです。2006年当時は、みんな「こんなもの、できないんじゃないの?」と言っていたほど、「話し言葉の自由発話の音声認識」は困難なタスクだったんです。

――そうした困難な技術開発において、NTTの日本語解析の歴史は役立っているのではないですか?

小橋川 音声認識って、文字を音の記号、音素に直すだけじゃなくて、日本語の場合、「かな漢字文」に直さないといけないんです。NTTでは長く日本語の言語解析をやってきましたから、音素を漢字に直すための大量のデータを持っていたり、文章を単語に切り分ける技術を持っていたりします。それを活用して学習しているので、高い精度で「かな漢字文」に変換できるということはあります。音声のチームと言語のチームが同じ部屋の中で研究しているので、お互いが持っているツールなり技術を簡単に活用できるのは、研究開発に有利ですね。

前の記事へ次の記事へ
宮本勝
青野裕司

プロフィール
日本電信電話株式会社メディアインテリジェンス研究所主幹研究員。1999年NTTに入社。以来、歌声音声合成処理関連の研究に従事し、2005年NTTアドバンステクノロジに異動後、当該技術の商用化を推進。2009年NTT研究企画部門に異動、R&Dビジョンや研究開発計画の策定などに従事。2011年に研究所に戻り、現職。

関連リンク
メディアインテリジェンス研究所  
http://www.ntt.co.jp/md/
宮本勝
小橋川哲

プロフィール
日本電信電話株式会社メディアインテリジェンス研究所主任研究員。2002年NTTに入社。以来、音声言語処理関連の研究に従事。2013年NTT東日本ビジネス開発本部に異動後、オフィスやシニア向けのサポートサービス開発を推進。2016年に研究所に戻り、現職。

関連リンク
メディアインテリジェンス研究所  
http://www.ntt.co.jp/md/
  • corevo’s challenge
  • corevo’s challenge
  • corevo’s view
  • corevo’s engineer
  • corevo’s challenge
  • corevo’s view

ローカルナビはここからです。