日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:和田紀夫)は、VoIP*1対応音声会議装置への搭載を前提に、大きな声と小さな声を同時に自動補正して通話できる方向別自動音量調整(以下方向別AGC*2)技術と、広帯域音声と従来の電話帯域音声が混在したまま多地点通話が可能な多地点用広帯域音声コーデック*3技術を世界に先駆けて開発しました。
これらの技術をスピーカとマイクが一体となった音声会議装置へ適用すると、従来に比べて、音声を収音するためのマイクの設置・調整などの煩わしさが大幅に減少し、さらに接続先の相手が広帯域か電話帯域かを意識することなく接続することができ、より便利で快適な通信会議が実現できます。 |
【開発の経緯】 |
 |
従来、マイクとスピーカを用いた拡声型音声会議においては、マイクの近くにいる人の声だけが伝わり、マイクから離れた人の声が伝わりづらいなどの課題がありました。このため、ノイズや音響エコーなど不要音を抑圧しつつ、伝えたい音声を適正な音量にして伝送する技術が求められていました。また、インターネットの普及によりVoIP通信が盛んになってきましたが、複数の地点を結んで音声会議を行なう場合には、一地点でも電話帯域の音声が混在すると、全ての音声が電話帯域となってしまう問題がありました。このため、電話帯域と広帯域音声の相互接続性を保ちながら、同時にそれぞれの帯域で通話が行なえる音声コーデック技術が求められていました。さらにインターネットを介した通信では、パケットの欠落が生じた場合の音質の劣化を抑える仕組みも必要とされていました。 |
【技術のポイント】 |
 |
| 1. |
ひとつの会議室にいる人の声の大きさを方向ごとに同時補正する方向別AGC技術(別紙1) |
|
|
 |
従来、一箇所の会議室に複数人が集まるようなTV会議や音声会議においては、参加者のそれぞれにマイクを用意し、それぞれのボリュームを調整するなどの煩わしさがありました。また、音量を自動調整するAGC技術がありましたが、マイクから離れた人や小さな声の人に音量を合わせると、マイクに近い人や大きな人の声では過大音量になるなどの課題がありました。
本方向別AGC技術は、4つのマイクを用いたマイクロホンアレー技術*4を基礎とし、参加者が話すたびに話者の方向と声の大きさを測定し、過去の発言者を含めてこれらを適正な音量となるようにします。これにより、例えば、別紙1のように通常であれば装置に近い人の声だけが相手に伝わっていたのに対し、長いテーブルに座った10人全員の声を同じような音量で相手に伝えることができるようになります。また、通信会議などでは、普段より大きな声で話したりしていましたが、周りの人より地声が小さくても自然な話し方で通話ができるようになります。
さらに、本AGC技術には音響エコーキャンセラ*5および回線エコーキャンセラも搭載しており、従来の音声会議装置の基本機能を継承し、電話網への接続も行えます。 |
 |
| 2. |
既存の電話帯域音声と広帯域音声とが混在した多地点接続が可能な広帯域音声コーデック技術(別紙2) |
|
|
 |
音声コーデックは、人の声をディジタル化してインターネットなどを通して相手に伝えるための技術です。一般的にVoIPで使われている音声コーデックは、電話並みの音質ですが、音声会議のようなスピーカとマイクを用いた通話ではより高品質な音声が求められます。このため、広帯域な音声コーデックもVoIPで用いられるようになってきておりますが、一般に普及しているVoIP音声が電話帯域であるため、相互接続時には電話帯域用のコーデックが用いられることになります。したがって、複数の地点を結んで多地点音声会議を行なう時には、従来は一地点でも電話帯域音声を利用すると全てが電話帯域音声となり、スピーカを用いた通話では明瞭性の低い会議となってしまいます。
本音声コーデックは、従来の電話帯域音声のコーデックを持つ装置との相互接続性を保ちながら、広帯域の音声とも同時に通話できるスケーラブル構造*6を持ったコーデック技術です。マイクから入った音声は、従来の電話帯域の音声と、広帯域の高い周波数成分とに分割され、電話帯域音声は従来から用いられている音声コーデックで符号化され、広帯域成分は、独自の方式で符号化されます。これらの2つの成分は、通話相手により電話帯域成分だけ送ったり、両方送ったりされます。これにより、電話帯域と広帯域が混在した多地点会議が可能になります。さらに、広帯域成分を送るときには、それ以前に送った音声パケットがインターネット上で欠落しても、欠落した音声を復元するためのデータを一緒に送っています。これにより、パケット欠落時の音質劣化が抑えられ、常にクリアな音で通話できます。 |
【今後の予定】 |
 |
今後、本技術を取り入れた音声会議装置が、NTT東日本、NTT西日本から半年後を目処に商品化される予定です。また、NTT研究所では、音声コミュニケーションをより快適にするために、家庭でのTVの音や家事の音など多様な生活音の中から音声だけを取り出して伝送するための研究開発を進めて行く予定です。 |
[用語解説]
| *1: |
VoIP(Voice over IP (Internet Protocol)) |
|
データ通信として始まったインターネット回線上に、音声を細かなディジタル信号データに変換し、パケットに載せて通信を行う方式の総称。 |
| *2: |
AGC(Automatic Gain Control: オートマティックゲインコントロール) |
|
音の大きさに合わせてマイクボリュームの大きさを自動的に調整する機能。ビデオカメラのマイクなどに利用されている。 |
| *3: |
音声コーデック |
|
マイクから入った音声信号をディジタル信号データに符号変換したり、ディジタル符号信号から音声信号に戻す技術。3.4kHzまでに帯域制限された電話帯域音声は、VoIP通信では主にG.711という方式で符号化される。広帯域音声は、3.4kHz以上の信号を含む音声信号であり、7kHzまでの音声コーデックとしてG.722などが標準化されている。 |
| *4: |
マイクロホンアレー技術 |
|
2つ以上のマイクロホンの出力信号の時間関係や大きさを複雑に処理することで、任意の方向の音を強調したり、低減したりする技術。指向性マイクロホンとは異なり、指向特性を任意に変化させることができる。 |
| *5: |
エコーキャンセラ |
|
自分の話した声が少し遅れて自分のスピーカから出てくる現象がエコーと呼ばれ、これを消去する機能。スピーカから出た通信相手の声が、こちら側にあるマイクロホンに回り込んで相手に伝わる音響エコーと、電話網と接続する機器との間で回路的に発生する回線エコーとがある。それぞれのエコーを消去する機能は音響エコーキャンセラ、回線エコーキャンセラと呼ばれる。 |
| *6: |
スケーラブル構造 |
|
コーデックにより生成された符号データのうち、一部のみを用いても音声再生が可能となる階層的なデータ構造。本コーデックでは、符号データの全てを用いると広帯域音声が再生され、一部のみを用いると電話帯域音声が再生される構造となっている。 |
|