日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:三浦惺)は、録音素材に含まれる残響を高精度で推定する基盤技術を開発し、残響があるため聞き取りにくかった録音素材から、残響の低減された聞き取りやすい高品質な音声を取り出すことに成功しました。
この基盤技術をもとに、エヌ・ティ・ティ ラーニングシステムズ株式会社(以下NTTLS、本社:東京都港区、代表取締役社長:岡田昭彦)は、「NTT MEDIA LAB」として運営しているポストプロダクション※1(以下 ポスプロ)業務で培ったノウハウを活かし、国内外のポスプロで広く利用されている音声編集ツール※2のプラグインソフト※3「NML RevCon-RR」を開発しました。本製品を使うことで、従来難しかった、録音素材に含まれる不要な残響の除去が可能となり、CMや映画の種々の場面の演出意図に沿った最適な残響特性をもつ音声の制作が簡単にできるようになります。 |
1.残響除去技術の概要 |
 |
部屋の中で離れたマイクに向かって人が話した場合、その音声は、部屋の形や壁面の材質に起因する残響を伴った音として録音されます。今回開発した技術は、この録音音声に含まれる残響を高精度かつ簡単に推定・除去することを可能にした基盤技術です。また、本基盤技術に基づいた本製品によって、映画やドキュメンタリー番組の演出で利用される響きの無い音声や、アフレコで収録したようなはっきりとした聞き取りやすい音声を、より簡単に制作できるようになります。 |
2.開発の経緯 |
 |
NTTのコミュニケーション科学基礎研究所(以下、NTTの研究所)では、いつでもどこでも利用可能な音声インターフェース技術の実現を目指して、日常環境下で聞き取りやすい音声を抽出する技術の開発の一環として、録音音声に含まれる雑音や残響を取り除く技術の研究を行ってきました。その結果、録音音声に含まれる残響を効果的に低減させ、音声を聞き取りやすくするソフトウェアの基盤技術を開発しました(図)。
一方、CMや映画を制作するポスプロでは、録音音声に残響が含まれていたために制作者の意図する演出を実現できず、俳優を再度手配して録音をやり直す場合も多々ありました。このような状況を解決するため、NTTLSは、ポスプロ業務で培ったノウハウをNTTの研究所で開発した残響除去技術に取り入れ、ポスプロ業界向け音声編集ツールの残響除去プラグインソフトを開発しました。 |
3.技術のポイント |
 |
部屋の残響の特性や、残響の影響を受ける前の声の情報等が予めわかっていれば、残響を取り除いた音声を得ることは容易です。しかし、録音音声の情報しか利用できない状況で残響除去を行うことは、非常に困難とされていました。
この処理を実現するためにNTTの研究所は、残響を含む録音音声が、直接音に相関の高い「原音」(直接音および直接音から30〜50ミリ秒以内に録音される反射音)と、直接音と相関の低い残響※4にわかれることに着目し、マルチステップ線形予測※5を適用することで、録音音声のみから残響を高精度に推定することを可能にしました。 |