概要
任意の文章(テキスト)から音声を合成する技術を、テキスト音声合成技術あるいは単に音声合成技術と呼びます。情報源へのマルチアクセス・ユビキタス環境などの発展に伴い、音声での情報伝達の利便性が再認識され、音声合成技術に対するニーズが増大しています。NTTでは、このニーズに応え、電話音声案内や音声ポータル、PCによるホームページ読み上げなどに利用できる、高品質音声合成技術の研究開発を行っています。
あらかじめ録音しておくことが困難な、電子メールやチャットテキスト、頻繁に内容更新がある商品案内などの読み上げにおいては、テキスト音声合成技術の導入により、人間が読み上げる場合と比べて、大幅なコスト削減、時間短縮を図ることが期待できます。しかし、これまでCTI*などの分野では、従来の合成音声品質では必ずしもお客さまに満足いただけず、あまり合成音声は利用されていませんでした。
そこで、CTIなどの分野でも利用可能な肉声と遜色のない合成音声を提供するために、新たに、コーパスベース音声合成技術(開発名:Cralinet)を開発しています。
本技術には、
- (1)統計的なテキスト解析処理による正確な読み付与アルゴリズム
- (2)大規模肉声データベースを用いた、コーパスベース音声合成方式
- (3)音声データベースの高速最適音声素片探索方式
- (4)特定分野向けの読みや音声品質のカスタマイズ方式
といった特徴があります。すなわち、あらかじめ単語辞書に登録されていない、英語などの外国語やローマ字で書かれたアルファベット表記の商品名、店名などの単語に対し、統計的な読み付与技術により、そのつづりから自動で正確な読みやアクセントを付与したり、日本人の姓名についても、ふり仮名からアクセントを自動で付与することが可能となりました。また、大量の音声を蓄積した音声データベースを利用していますので、話者の声質をそのまま再現します。さらに、高速な歪最小化に基づく音声素片の最適探索・接続処理の実現により、マルチアクセスにも対応できる実用的な処理時間で合成音声の作成が可能になっています。
- *注 CTI: Computer Telephony Integration

