平成10年2月16日 日本電信電話株式会社 合成音声による歌声生成ソフトウェアを開発 ─キーボードによる歌詞入力でコンピュータが歌う─ NTTでは、コンピュータで作曲した楽曲に歌詞を入力することで、合成音声による歌 声を出力できる歌声生成ソフトウェア“Synger”を開発しました。 今回開発した“Synger”は、電子楽器を制御する標準的プロトコルであるMIDI*1 を利用して作成した楽曲の各音符に歌詞を付与すると、タイミング・音程・時間長に合 わせて歌声を合成し、演奏と同期を取って出力するソフトウェアです。 本ソフトウェアは、NTTのテキスト音声合成エンジンFLUET*2を基盤とした高い音 声品質に加え、フレーズ単位で男声/女声、太い声/細い声などの指定や、音素 (「さ 」ならSとAが音素) ごとにパワーを調整したりビブラートをかけるなどの細かい条件が 設定可能であるため、使いやすいインタフェースとなっている点が特長です。 NTTでは今後、本ソフトウェアを基にして、より人間の歌声に近く、表現力の高い歌 声生成の実現に向けた研究開発を続けていく予定です。 < 開発の背景> MIDIの登場によって、パソコンやシンセサイザなどで作曲・演奏をするDTM (Desk Top Music)が普及してきました。複数のチャンネルにMIDIデータを打ち込む ことで、たった1人でもオーケストラの演奏を再現できるDTMは、音楽表現にこれまで になかった可能性を開くものとして注目を集めています。 しかし、MIDI音源に肉声がないことから、唯一、ボーカルの生成だけはできませんで した。これは、人間の音声 (意味をもつ言葉) が、楽器の音のように単一の音色と高 さ、強さ、音の出るタイミングだけでなく、それに加えて言語的なメッセージを含んで いるからです。人間の声を楽器の音として突き詰めていくという手法も検討されてきま したが、これによって作られる合成音声は不自然さを払拭しきれませんでした。 < ポイント> NTTでは、人間とコンピュータなどとのマン・マシンインタフェースの円滑化のため に合成音声の研究開発に取り組んできました。その成果の一つ、テキスト情報から音声 を合成するソフトウェアFLUETはすでに原稿読み合わせに用いられるなどの実績があり 、さらに昨年開発した合成音声編集ソフトSPEED97*3は合成音声に微妙な表情を与 えるものとして注目を集めています。 今回開発したソフトウェアはこれらの技術の延長線上に位置するもので、合成音声に よる歌声を’音の連続’ではなく’音程のある言葉’ととらえたアプローチポイントで す。 (1) 高品質テキスト音声合成エンジンを利用した自然な歌声生成 音符に沿って入力される歌詞を、音節 (「あ」、「い」など) ではなく、単語の構 成要素としてとらえ、つながりを意識した自然な歌声として合成します。 (2) MIDI演奏と完全に同期した歌声の出力が可能 スタンダードMIDIファイルを入力すれば、どんな楽曲でも合成音声による歌声の出力 が可能です。また、複数チャンネルに歌詞を付与すれば、デュエットやハーモニも 実現 できます。MIDIは通信カラオケの分野では100%使用されているほどのプトロコル ですから、歌声を載せる音楽ソフトは自作以外にも豊富です。 (3)多彩な付加情報 声質変換やビブラートを付加することにより、歌声を自由に演出することができます 。 < 今後の展開> NTTでは、本ソフトウェアに’裏声’や’こぶし’といった人間の声特有の音声表現 機能を付加し、より自然な歌声生成ソフトウェアの実現に向けて研究開発を進めていく 予定です。 <用語解説> *1)MIDI(Musical Instrument Digital Interface ) 電子楽器の演奏情報を伝達するために、鍵盤を押さえた、離した、ペタルを踏んだ( 音の高さ、長さ、音量)などのデータを数値化した業界標準のインタフェースで、音源 ボックスと組み合わせて様々な音色を出すことができます。1983年に世界の楽器メ ーカーがつくりました。現在、MIDIはほとんどすべての電子楽器や通信カラオケ等に 採用されています。 *2)FLUET FLUETは、FLUEnt Talk の略で、NTTが研究開発した、日本語テキストを高品質な音 声に変換するテキスト音声合成システムのことです。 *3)SPEED97 SPEEDは、Speech Editorの略で、SPEED97は、パソコンに入力した文章を自然な 音声に合成したり、イントネーションを自由に操作できる合成音声メッセージ制作シス テムです。音声の周波数や抑揚、速度など自由に設定でき、男女の声や関西弁など様々 な音声を作成することができます。
