HOME > 技術解説 > 音声品質評価法 >4.音声品質の客観評価法 > 4.2.メディアレイヤモデル

音声品質評価法

4.音声品質の客観評価法

4.2.メディアレイヤモデル

<メディアレイヤモデルの歴史>
音声信号の物理測定に基づくメディアレイヤモデルの研究は、PCM符号化音声の評価におけるSNR(Signal-to-Noise Ratio:信号雑音比)から始まりました。SNRは信号のレベルと雑音(元の音声との差分)のレベルとの比を表します。この値は波形符号化モデルの主観品質には比較的良く対応するのですが、スペクトル符号化やCELP符号化などの評価においては主観品質を低く推定する傾向がありました。
80年代になると、波形歪みよりもスペクトル歪みに着目した客観品質評価モデルが数多く提案されるようになり、これらのモデルを比較検討した結果、1998年にITU-T勧告P.861 PSQM (Perceptual Speech Quality Measure) が標準化されました。P.861は符号化歪みに対する推定精度は高かったものの、ビットエラーやパケット損失などの時間軸上離散的に発生する劣化の評価では充分な精度が得られませんでした。そのため、パケット損失のようなネットワーク品質劣化要因を含めた通話品質を評価する手法の標準化が次なるターゲットとされました。結果的には、PSQMと別の品質推定手法であるPAMS (Perceptual Analysis Measurement System) を統合したPESQ (Perceptual Evaluation of Speech Quality) がITU-T勧告P.862として2001年に標準化されました。
PESQで対象としている音声信号の帯域は電話帯域(300 Hz-3.4 kHz)に限定されているため,広帯域(100 Hz-7 kHz)音声の評価はできませんでした。ITU-T SG12では、PESQを広帯域音声の評価に拡張する検討を行い、勧告P.862.2(Wideband PESQ)として2005年に標準化しました。
また、音声ではなくオーディオを対象としたメディアレイヤモデルとして、PEAQ (Objective Measurements of Perceived Audio Quality) と呼ばれる技術がITU-R勧告BS.1387として標準化されています。本勧告は主に符号化による劣化の品質評価を対象としており、IP伝送において問題となるパケット損失等の劣化の評価には適用できないという問題が残ります。
(図4.2.1)
(図4.2.1)メディアレイヤモデルの標準化の歴史
図をクリックすると、拡大図が別ウィンドウで開きます。
<メディアレイヤモデルの分類>
PESQは、評価系を通した音声信号に対する主観品質を、元の音声信号(原音声)と出力音声信号(劣化音声)を比較することで推定します。具体的には、原音声と劣化音声との間にある時間のずれを整合し、原音声と劣化音声とのスペクトル差分を人間の聴覚特性に基づいて定量化します。このような、レファレンスとして原音声信号を必要とするモデルを“フルレファレンスモデル”と呼びます(図参照)。フルレファレンスモデルでは、評価対象系に試験音声信号を入力するアクティブな品質評価を想定しています。
しかし、品質管理などの用途を想定した場合、受話側の音声信号のみに基づいて品質を評価する技術も必要とされます。このようなモデルを“ノーレファレンスモデル”と呼びます(図参照)。ITU-Tではノーレファレンスモデルである勧告P.563を2004年に標準化しました。このモデルは、「非音声的要素」である雑音性、瞬断、不自然性という観点から音声品質を評価します。
(図4.2.2)
(図4.2.2)メディアレイヤモデルの分類
図をクリックすると、拡大図が別ウィンドウで開きます。