(ニュースリリース)
2011年4月7日
日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:三浦惺)は、ETRI(韓国)、France Telecom(フランス)、華為技術(中国)、VoiceAge(カナダ)と共同で、テレビやFMラジオなどの放送と同程度である14kHz帯域の音声を符号化※1できる方式をITU-T※2に提案し、G.711.1 Annex Dとして国際標準化されました。
本方式をテレプレゼンスやハイビジョン会議装置等に搭載することで、双方向での臨場感にあふれた音声通信が可能になります。さらに、本方式は、電話に広く用いられている音声符号化技術であるG.711※3やG.711.1※4とも相互接続できることから、幅広い用途での利用が期待できます。
NTTのサイバースペース研究所(以下、「NTTの研究所」)では、従来より音声符号化技術の国際標準化に取り組み、1996年に国際標準として採択されたVoIP電話向けのG.729※5を始め、NGN向けのG.711.1などを成立させてきました。
従来のデジタル電話やVoIP電話では、電話帯域音声(300Hz〜3.4kHz)を符号化するのに、音声コーデック※6のITU-T標準G.711が広く用いられてきましたが、電話帯域音声は、会話を行うには十分なものの、符号化できる帯域が狭いため、人間の声を忠実に再現することは困難でした。
また、MPEG AAC※7など、放送やVODなどのコンテンツ向けに、より広い帯域の音声を再生可能なコーデック技術も標準化されていますが、テレビ会議などの双方向通信に用いるには伝送遅延が大きいため、これからますます普及が見込まれる高臨場感通信サービスに適用可能な、帯域が広く、リアルタイム性の高い音声符号化技術が求められていました。
NTTの研究所では、一般の電話で使われる音声帯域の4倍である50Hz〜14kHzの帯域の符号化を可能にし、高音質な電話サービスへの適用が期待される、音声符号化の新方式G.711.1 Annex Dを標準化しました。
従来の電話音声(300Hz〜3.4kHz)や7kHz広帯域音声(50Hz〜7kHz)よりもはるかに広い帯域の音声により、人の声のみならず、環境音や音楽まで忠実に再生することができ、相手に話し手の雰囲気まで伝えることが可能になります。
携帯電話の符号化方式3GPP AMR※8や放送用途の方式MPEG AACでは、音声信号を20ms(ミリ秒)以上のブロック単位で処理するため、音声の遅れが避けられません。本方式は、G.711.1と同様に、最小5ms単位での音声処理が可能なため、音声の遅延を抑えられます。つまり、遅れの少ない自然な通話が可能です。
従来、複数の地点を接続するような会議では、全ての端末が同じ音声コーデックを搭載している必要がありました。従来電話が一地点でも混在した場合、全ての端末のコーデックをG.711に合わせるか、装置間で符号データを変換する装置を別途設ける必要があります。本方式は、G.711、G.711.1で再生可能な符号データに、音声帯域を広げるための符号データ(16〜32kbit/s)を追加して伝送するため、従来電話が混在しても、G.711の符号データを取り出すだけで符号変換が可能ですので、コーデックをG.711に合わせる必要はありません。
通信会議用途の場合、複数地点が同時に通話できるよう、それぞれの地点からの音声を足し合わせる多地点音声ミキシングの機能が欠かせません。従来の音声ミキシングでは、各地点からの符号データを音声に戻し、足し合わせて、それぞれの地点向けの音声を作った後、再び符号データに符号化するという膨大な処理が必要でした。本方式と部分選択ミキシング※9と組み合わせることで、それらの処理を大幅に減らすことができ、一桁以上少ない処理量でのミキシングが可能になります。
今後、ブロードバンドネットワークの更なる普及にともない、一層の発展が期待されるテレプレゼンスやハイビジョン通信会議などにおいて、より臨場感の高いサービスを提供するため、本技術のサービスへの実装を進めます。
企画部広報担当
Tel:046-859-2032
E-mail:randd@lab.ntt.co.jp
ニュースリリースに記載している情報は、発表日時点のものです。現時点では、発表日時点での情報と異なる場合がありますので、あらかじめご了承いただくとともに、ご注意をお願いいたします。