![]() | ||||||||||||||||
平成12年9月7日 | ||||||||||||||||
日本電信電話株式会社 | ||||||||||||||||
肉声品質と遜色のない歌唱音声合成技術'HORN法'を開発 〜あなたの声を基にコンピュータが歌います〜 | ||||||||||||||||
NTTでは、楽譜と歌詞から高品質な歌声を生成する歌唱音声合成技術'HORN(Harmonic Overtones + Residual Noise)法'を開発しました。 'HORN法'は、NTTがこれまで培ってきたテキスト音声合成技術のノウハウを生かすと同時に、歌声特有の倍音(ハーモニックス*1)を高品質で再現するために、正弦波*2を重ね合わせて音声を合成する、正弦波重畳方式というモデルを応用した新しい技術です(図-1)。 楽譜とテキスト情報の歌詞を与えると、あらかじめサンプリングしてある人の歌声データベースによって自然な歌声を合成することができます。本技術によって自作の歌詞や曲をパソコンに自由に歌わせる事が可能となり、例えば、歌詞コンテストサービス、歌声付きメッセージカードサービス、あるいはゲームキャラクターなどに自作の歌を歌わせるなど、マルチメディアコンテンツ製作分野に全く新しい広がりを提供します。 ○ 開発の背景 文字情報を自然な合成音声で読上げるテキスト音声合成技術は、コンピュータと人間のより円滑なインタフェース実現のために広く研究されている技術です。NTTでは自然で明瞭な音質の合成音声を実現する音声合成技術FinalFluetを開発してきました。しかし、インターネットの急激な普及によって、音声合成技術に対してもただ単にテキストを音声に変換するだけでなく、例えば、親しみ易いキャラクタや口調によるメール読上げなど、より多様な機能が求められるようになりました。このようなニーズに向けて、NTTでは1998年に、合成音声に個性をあたえるための音声デザインツール'Sesign'を開発して応えてきました。 このような技術の蓄積の上に、音声合成のさらに新しい応用分野開拓の一環として「音楽」をとりあげ、肉声品質とほとんど区別できない高品質な歌声合成を可能としたのが 'HORN法'です。 ○技術のポイント(図-1,2)
(2) 無声部分への波形重畳方式の適用 無声部分など明瞭性が重要である部分については、波形重畳方式を適用するなどハイブリッドな合成方式を適用しています。 ○ 今後の展開 NTTでは今後、特定の人物の歌い方、すなわちビブラートの入れ方・コブシまわしなどの「歌唱スタイル」を学習する方式の検討をすすめていく予定です。
| ||||||||||||||||
別紙 ・図-1 各種音声合成方式の特長 ・図-2 HORN法による音声合成の流れ | ||||||||||||||||
| ||||||||||||||||
![]() NTT NEWS RELEASE |