ページの先頭です。
コンテンツエリアはここからです。
研究開発マガジン

研究者の見る夢 VOL.5 原音の忠実再生とデータの圧縮符号化、二律背反する要件の両立を実現。

NTTコミュニケーション科学基礎研究所 守谷特別研究室長 NTT フェロー 工学博士 IEEE fellow 守谷 健弘電波や伝送路、処理速度や記憶容量などの制約の下で、誰もが気軽にしかも安価に音楽を楽しむためには、符号化に基づくデータ量の圧縮が不可欠の要素である。しかし、符号化に伴うデータの劣化や歪みが、音声・音響品質の低下を招く要因となっていた事実は否めない。そこでコミュニケーション科学基礎研究所・守谷特別研究室は、原音の品質を保持したままで、可逆的な圧縮を実現する技術を開発。国際標準MPEG-4 ALS(Audio Lossless Coding)として承認された。

そこで今回は、守谷特別研究室長を訪ね開発に至る経緯や今後の展望について、話を聞いた。

コミュニケーションの根源である『音声』にこだわる

少年時代から木工やラジオ製作に熱中していた、と語る守谷。ヒトの脳の働きなど生物化学にも興味があったことから、大学では化学サークルに参加し、専門課程は理学部に進むことも考えた。しかし授業で触れたコンピュータに魅せられて、計数工学の道を選んだ。

「卒論のテーマは『磁束量子を用いた論理素子のアナログシミュレーション』でした。その際、NTTの電気通信研究所の方々の論文を参考にさせていただき、当時のNTTの研究者たちの先進性に驚かされました。さらに修士課程では生体信号処理を研究しましたが、音声信号処理の分野でも世界をリードする研究者がたくさんおられることを知り、自分もワールドワイドで勝負したいという願いから、電気通信研究所に入りたいという思いがどんどん膨らんでいきました」

そんな願いがかない、1980年、修士課程修了と同時に電気通信研究所に入所した。
「NTT(当時:電電公社)は、音声の伝達を担ってきた組織です。音声は人と人とのコミュニケーションにとって最も根源的な存在であり、しかも信号としての音声は認識や合成、伝達など研究対象となる領域が非常に広く、挑戦しがいのあるフィールドだと考えました」

高圧縮と高音質の両立を目指して

「当時、新入社員に向けられた研究開発テーマのひとつに、『10年以内に、ワイシャツの胸ポケットに入る電話機をつくりたい』というものがありました。そのためには、電池や回路、ワイヤレス技術に加えて、音声を符号化して圧縮する技術が不可欠でした。そこで、そのための基礎研究を自らのテーマにしました」

守谷は、低ビット音声符号化などの研究を推進し、1989年には「周波数領域のベクトル量子化に基づく中帯域音声符号化」に関わる研究成果で、母校である東京大学から博士号を授与された。
同年AT&Tベル研究所の客員研究員となった守谷は、情報圧縮以外の研究をする予定だったが、欧米が政府主導でデジタル携帯電話の導入を進めている状況を目の当たりにした。そこで、携帯電話を目標とした音声符号化研究を再開したのである。

ヒューマンインターフェース研究所に戻り、音声符号化や音響信号符号化に取り組んだ。携帯電話用にはプロジェクトチームをたちあげ、その結果、半分の情報量でフルレートのVSELPと同等の音声品質を実現するPSI-CELP(Pitch Synchronous Innovation Code Excited Linear Prediction)を開発。PSI-CELPは標準方式としてMovaに採用され、携帯電話の急速な普及拡大の一助となった。またその基本要素技術はFOMAやIP電話用の国際標準符号化方式にも受け継がれている。

さらに、TwinVQ (Transform-domain Weighted Interleave Vector Quantization) の開発も担った。

「これまで取り組んできた音声の情報圧縮技術を、音楽表現に活かすことができないだろうか・・・、というのが、そもそもTwinVQの開発を思い立った契機でした」

TwinVQはMP3の情報の再配分に加えて、情報をパターン化したブロックに分割することで、MP3に匹敵する音質を20Kbps、16Kbps、さらに8Kbpsにまで圧縮することができる。また、圧縮されたビット列の一部からでも音楽の再生が容易で、高圧縮時の優れた音質確保や伝送途中で発生する符号誤りへの耐性など、多くのメリットを有している。この技術も標準化され、MPEG-4オーディオに正式採用されている。

さらに原音の忠実再現に向かって

「本来、圧縮技術は電波や伝送路、処理速度や記憶容量など、限られたリソースの中で安価に情報を提供することを目指したものです。つまり符号化は『節約』のための技術という側面が強かったのです。一方、音楽家の声に耳を傾けると『そのために大切なものを棄てているのではないか?』という手厳しい意見が多く聞かれました。確かに圧縮度を高めれば、それだけ歪みが顕在化してきます。そこで品質への妥協を許さず、原音データを歪みなく1/2〜1/3にまで圧縮したいと考えたのです」

つまり21世紀を迎えて以来、符号化を巡る守谷の課題は、資源上の制限の中で可能な限りの品質を保証するというものから、サービス本位の発想を実現した上で節約を図るものへ・・・すなわち、情報の作り手や発信者が送り出した信号を全く変形させることなく、劣化を伴わない圧縮を図る『ロスレス符号化』への転換が図られたのである。

現在、一般の人たちが気軽に音楽を鑑賞する環境としては、CDや放送、さらにはMP3などのデジタルオーディオやネット配信が主流となっている。しかし、これらの媒体はフォーマット上の制約に縛られており、そのことが先ほどの「大切なものを棄てている」という評価を招いているのである。

「ところが、ネットワークでの配信を想定すれば、多チャンネル化や振幅分解能の向上、周波数の拡大など、高音質化を実現するためのさまざまな要求にも、柔軟に応えることができるはずなのです。ここに、歪みを招くことなく情報量だけを圧縮することができるロスレス符号化のポイントがありました」

国際標準としてさらなる発展に期待

以上の観点からNTTが開発したロスレス符号化技術は、国際的な協力体制の下に2006年3月、MPEG-4 ALS(Audio Lossless Coding)として承認された。

MPEG-4 ALSは、最大192kHzのサンプリング周波数をカバーし、量子化ビット数は32bit、チャンネル数も65,536チャンネルまでをサポート。さらにプロ向けの一部高品位オーディオで採用されている32bit浮動小数点形式のデータにも対応する。しかも、時系列データを復元可能な形で15〜70%にまで圧縮し、一般的なPCの演算処理能力でも高速で復号することが可能だ。ちなみに、現在のCDのサンプリング周波数は44.1kHzだが、この場合にNTTの実験では、演奏時間の100分の1以下の時間、すなわち100倍速以上の速度で復号することができている。

100年後の社会を視野に入れて

すでに、音楽のネットワーク配信もすっかり定着しているが、今後MPEG-4 ALSはインターネット放送を含む高品質サービスメニューのひとつとして、発展していくことが期待されている。

一方、歴史的なアナログ音源をデジタル化して長期保存すことが、世界的な課題となっている。歴史的名演や演説などの音声は、人類全体の文化的遺産だ。これらを劣化のない形で将来に継承することの重要性については、もはや議論の余地がない。

「これらの記録は、クリアな権利関係の下で他のサービスなどとの互換性が保証され、将来にわたってソースコードやドキュメントの維持・管理が図られなければなりません。その意味でも、国際標準に基づくアーカイビングが必要なのです。また、CDをはじめとする音源のデジタル化は、人が認識できる可聴音域を越えた周波数成分を切り捨ててきました。しかし最近では、可聴音域を越えた音成分が人間の脳内活動に何らかの影響を与える例が、発見され始めました。さらに、100年後の人たちが資料の正しい評価や鑑賞をするためにも、人が聞き取れない20Hz以下/20KHz超の成分も忠実に保存する必要があります。ここでも、拡大する情報量を圧縮し、蓄積効率を向上させるロスレス符号技術が貢献するはずです」

今後、高品質サービスの本質を究めようとする守谷にとって、神経科学やデバイスなどの広範囲な学際的交流と連携も必要だ。その意味でも、さまざまな学問分野のプロがそろっているNTTは、これまでにも増して最適な開発環境だといえる。

自分で解答を導く姿勢を大切に

一貫して研究畑を歩んできた守谷は、自らの成果が最終的にたくさんの人たちに活用され、喜んでもらえる点が仕事の醍醐味だと語る。

「研究開発に携わるエンジニアは、自ら工夫して新しいものを創り出すチャンスを与えられているのです。さらに、多くの人たちがまるで空気のように、意識しない間にその機能や効果を享受している・・・そんな技術を生み出し、提供していきたいのです」

仕事を離れれば、エコロジーとエネルギーの問題にも関心を寄せる。太陽発電を巡るNPOにも参加し、自宅の屋根にはソーラーパネルを設置し、データ計測を続けている。さらに、風力発電を進めている。プライベートでも興味のあることに、自ら熱意を持って考え、行動している。

「何が本質なのかを考え、幅広い視野と見識を持って、自分なりのオリジナルな解答を見いだすことが研究者の喜びなのです。若い人たちにも、自分をごまかさずにとことん突き詰める姿勢を大切にしてもらいたいですね」と発見の喜びと研究者の姿勢についても語ってくれた。

守谷 健弘 NTTコミュニケーション科学基礎研究所 守谷特別研究室長

1980年、日本電信電話公社通信研究所入社。1989年に博士号を授与(東京大学)される。1989年にNTT ヒューマンインターフェース研究所主任研究員となり、音声音響信号の符号化の研究、標準化に従事。工学博士。IEEEフェロー、日本音響学会理事、情報処理学会規格調査会SC29専門委員長。08年文部科学大臣表彰(科学技術賞・研究部門)など数々の賞を受賞。
趣味:ウォーキング、読書、カラオケ

フッタエリアはここからです。