ページの先頭です。
コンテンツエリアはここからです。

NTT持株会社ニュースリリース

2014年1月29日

手持ちのスマホでワイヤレスマイク機能を簡単に実現
〜スマホがテレビ電話・テレビ会議の拡張マイクとして使える
「振幅スペクトルビームフォーマ技術」を開発〜

 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:鵜浦博夫、以下NTT)は、Wi-Fi接続されたスマートフォンから送信される遅延の異なる複数の音声信号を適切に混合し、聞き手が聞き取りやすい高音質な音に補正する「振幅スペクトルビームフォーマ技術」を開発しました。
 これまで、テレビ電話会議などで遠隔会議をする際には、高価な拡張マイクが必要でしたが、本技術を組み込んだアプリをスマートフォンにインストールするだけで、スマートフォンがワイヤレス拡張マイクとして機能します。これにより、ワイヤレスマイクシステムなどの専用で高価なハードウェアを購入することなく、スマートフォンでワイヤレスマイク機能を簡単に実現できます。
 今後、NTTでは、本技術をテレビ電話やテレビ会議の拡張マイクへの活用を始め、複数人が参加する音声通話や遠くの人の声を収録するビデオ撮影などのさまざまな用途への展開を目指してまいります。

1.開発の背景

 テレビ電話を用いた音声通話やビデオカメラによる映像撮影時に、話し手が、テレビ電話やビデオカメラ本体のマイクから離れた位置で発言をすると、音声が小さくなるため、聞き手にとっては聞き取りにくくなり、特に遠隔会議においては大きなストレスとなっていました。
 しかし、既存にある有線での拡張マイクは、ケーブルの手配がわずらわしかったり、マイクの設置範囲が限定されることに加えて、費用面ではワイヤレスマイクシステムの導入費が非常に高価であるという課題がありました。
 一方、スマートフォンの普及に伴い、スマートフォンを拡張マイクとして活用するというアイデアはこれまでもありました。しかし、スマートフォンなどの機器のマイク信号をデジタル信号として無線LAN(Wi-Fi)を介してミックスした場合、各機器のサンプリング周波数の微小なずれや、機器の持つ遅延の差異により、音が2重に聞こえたり、音質が大幅に劣化するなどの課題があり、実際にスマートフォンが拡張マイクの役割を果たすといったサービスはこれまでありませんでした。(図1

2.開発の成果

 今回、NTTメディアインテリジェンス研究所が開発した「振幅スペクトルビームフォーマ技術」は、音の遅延やサンプリング周波数に微小な差異で生じる音質の劣化をおさえた音声ミキシングを可能とするものです。この技術を活用することで、お手持ちのスマートフォンをテレビ電話やビデオカメラのワイヤレス拡張マイクとして簡単に利用できるようになります。(図2
 具体的には、お手持ちのスマートフォンに本技術を活用したアプリをインストールすることで、スマートフォンを簡単に音質の良いワイヤレスマイクとして活用することが可能となります。
 話し手の手元にあるスマートフォンをマイクとして活用するため、これまで本体マイクから離れて話したときに聞き取りにくかったテレビ電話やビデオカメラの音声が、聞き取りやすい高品質な音として聞き手に届けることが可能となり、遠隔会議のストレスが解消されます。
 また、スマートフォンがワイヤレスマイクシステムを代替するため、導入時のコストが高いワイヤレスマイクシステムが不要となります。これにより、テレビ会議等の導入費用を大きく低減することが可能です。さらに、本技術の導入には特別なハードウェアを必要とせず、既存のテレビ電話やテレビ会議装置のソフトウェアアップデートを通じて導入することが可能です。

3.技術のポイント

(1)遅延やサンプリング周波数の違いの影響を受けにくい特徴量を用いた音源分離

 従来の音源分離は複数のマイクロホンに到達する音の到達時間差を使用して分離を行うというのが一般的でしたが、「振幅スペクトルビームフォーマ技術」では、音声信号を、遅延やサンプリング周波数の違いの影響を受けやすい特徴量(時間差)と、影響を受けにくい特徴量(音量差)に分離し、遅延やサンプリング周波数の違いの影響を受けにくい特徴量(音量差)のみを用いて、音源分離しています。
 音量差の情報から音源分離を行うには、各話者が話した時に、各マイクロホンにどのくらいの音量差で到達するかの情報が必要となりますが、本技術では、通話中の発話から、自動的に発話者の切り替わりを検出し、発話者ごとの音量差情報を自動で獲得しています。この仕組みによって音源分離を行うことで、音が2重になってしまうことを防ぐことができ、さらに話者ごとに音量を適正に自動調整することが可能となります。(図3

(2)ソフトウェアライブラリによる導入のシンプル化

 本体側の処理に関しては、本技術とノイズ抑圧処理やハンズフリー通話のための処理(エコーキャンセラ)を統合し、シンプルなAPI(アプリケーションプログラミングインタフェース)でソフトウェアライブラリ化しているので、これらの機能も合わせて簡単に機器に組み込むことができます。スマートフォンのアプリに関してもシンプルなAPIでソフトウェアライブラリ化されているので、拡張マイクのアプリ作成を簡単に行うことができます。また、本技術の導入には特別なハードウェアを必要としないので、既存のテレビ電話やテレビ会議に対しても、ソフトウェアのアップデートのみで導入が可能です。

4.今後の展望

 NTTでは、2014年中に、NTTグループ企業を通じて、まずは既存のテレビ電話やテレビ会議などのシステム(ソフトウェアのアップデートで対応が可能なシステム)に対して、本技術の導入を目指してまいります。
 さらに、今後、専用端末を必要とせずにスマートフォンを複数台連携させるたけで実現できる音声会議やパソコンを用いたWeb会議などへの応用、さらには通話以外の用途として、ビデオカメラやICレコーダなどの音声収録への応用などへも本技術の展開を働きかけ、本技術の幅広い機器への導入を目指します。

図1 現状の問題点図1 現状の問題点

図2 利用イメージ図2 利用イメージ

図3 本技術での課題解決図3 本技術での課題解決

本件に関するお問い合わせ先

NTTサービスイノベーション総合研究所

広報担当
TEL(046)859-2032
E-mail: randd@lab.ntt.co.jp
Innovative R&D by NTT
  NTTのR&D活動を「ロゴ」として表現しました

ニュースリリースに記載している情報は、発表日時点のものです。現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。

NTT持株会社ニュースリリース インデックスへ

サブコンテンツエリアはここからです。
  • NTT持株会社ニュースリリース内検索

 年   月 〜
 年   月 

  • NTT持株会社ニュースリリース
  • 最新ニュースリリース
  • バックナンバー
  • English is Here
  • NTT広報室 on twitter NTTグループの旬な情報をチェック!
  • Facebook NTTグループ 公式フェイスブックページ(別ウインドウが開きます)
フッタエリアはここからです。