平成9年8月7日 日本電信電話株式会社 合成音声メッセージ制作システム“Speed97”を開発 ─音声を自由に合成・デザイン可能に─ NTTでは、音声を自由に合成したり、イントネーションを思いどおりに操作できるシ ステム“Speed(Speecheditor)97を開発しました。 Speed97は、NTTが開発を進めてきた規則合成音声システム*1にGUI*2 (GraphicalUserInterface)を融合したものです。パーソナルコ ンピュータの分野でも一般化しているディジタル画像を自由に加工するソフトウェアやシ ステムの音声版であり、テキストを出発点として好きな音声表現を作成することが可能で す。 自然な音声を得られるため、これまでは人間の音声を使っていた天気予報や道路交通情 報の音声を手軽かつ低コストで作れる、また、合成音声であるために音声信号とテキスト の対応が明確になっており、他のメディアとの同期が容易でマルチメディアコンテンツの 音源として最適である、などの特長を持ちます。さらに、本システムでは1秒間に 800bitという少ない情報量で音声メッセージの合成が可能であることから、イン ターネット上での利用にも大きな可能性を秘めています。 NTTでは今後も研究開発を続け、自然音声の韻律を利用する機能の付加など、本シス テムの機能拡大を進めていきます。 <開発の背景> 文書にはワードプロセッサ、映像にはコンピュータグラフィックス、音楽にはデスク トップミュージックというように、マルチメディアコンテンツが個人でも簡単に制作可能 になってきている現在、(言葉としての)音声の制作環境の未整備が指摘されるように なってきました。テキストから音声を合成する技術は以前からありましたが、そこで得ら れる音声メッセー間らしさ”に欠けるものでした。 <技術のポイント> 1.音韻環境依存型素片による音声の合成 本システムでは、まず音素(音声の最小単位)として音素環境依存型素片を6000個用 意しておいて、入力されてきたテキストデータに振り分けるという処理を行います。音素 環境依存型素片とは「朝」と「雨」の同じ“あ”でもそれぞれ違うように、その前後にど のような音素が来るかによって変わってくる場合をそれぞれ規定したものです。これに よって自然な合成音声が得られるようになります。 2.GUIによる豊富なエディット機能 ・テキストレベルでのエディット 漢字仮名混じり文、カナアクセント文に対して,読みやアクセント型などを付与できま す. ・韻律パラメータでのエディット 音素ごとの強さ、基本周波数、継続時間を自由に設定することで、豊かな表現を持った合 成音声を実現します。例えば、会話でのお喋りのような音声や関西弁のような音声を作成 したり,アニメのキャラクタのものまねをさせることができます. ・合成音声を比較しながらの音声メッセージが作成可能 トライ・アンド・エラーで好みの合成音声が作成できます。 ・スタイル設定可能 男女声、基本周波数、発話速度をメニュー化してあり、好みのスタイルの設定が容易で す。 これらの機能を利用して、マルチメディアコンテンツに使用する音声メッセージ、アニ メキャラクタのアフレコ、ホームページにのせる音声メッセージなどへの応用が考えられ ます。 <今後の展開> 本システムは、これまで人間の音声を用いていた部分への代用としても効果的ですが、 NTTではパーソナルコンピュータで使用できるという利点に注目し、音楽に対するシン セサイザーと同様に、新しいメディアとしての合成音声を創造するシステムと位置づけて 機能拡大などを進めていく予定です。 <用語解説> *1)規則合成音声システム テキスト情報を音声に変換するシステムです。NTTでは、ある音素の前後の音素をも含め たトライホンデータを複数記憶しておき、テキストの意味にもっとも適した合成音声を選 ぶシステムを開発しており、電子メールの自動読み上げサービスなどへの適用を図ってい ます。 *2)GUI(GraphicalUserInterface) コンピュータに指示をする場合にコマンド(文字列)を入力するのではなく、視覚的 に理解しやすい絵や図を選んでその処理を実行させるインタフェースのことです。
