特集

バックナンバー一覧 >> 2013 Vol.25 No.9 >> 特集

多様な情報機器に囲まれた暮らしの中で、人間と情報の深い理解に基づくコミュニケーション科学は、ますます重要性を増している。本特集では、NTTコミュニケーション科学基礎研究所の音声・言語と人の聴覚に関連する最新の研究成果を紹介する。

音声・言語・聴覚の最先端研究が拓くコミュニケーションの未来

◆執筆者		前田　英作
◆所属		NTTコミュニケーション科学基礎研究所　所長

NTTコミュニケーション科学基礎研究所では、情報と人間を結ぶ新しい技術基盤の構築を目指して、情報科学と人間科学の両面から研究に取り組んでいます。本特集では、基礎研究として比較的長い歴史を持つ音声・言語・聴覚分野を取り上げ、さらに最新のトレンドを紹介します。

革新的発展期を迎えた統計翻訳

◆執筆者		永田　昌明／須藤　克仁／鈴木　潤／秋葉　泰弘／平尾　努／塚田　元
◆所属		NTTコミュニケーション科学基礎研究所

英語と日本語は語順の対応関係が正順になる部分と逆順になる部分が複雑に入り混じっており、おそらく世界でもっとも翻訳が難しい言語対の１つです。私たちは、主辞後置性という日本語の言語学的な特徴を利用して、英語の文の単語を日本語と同じ語順に並べ替えてから日本語へ翻訳する方法を考案し、英日翻訳の精度を劇的に改善しました。さらにこの方法は、中国語から日本語への翻訳においても非常に有効であることも確認しました。

みんなの会話を聞き取るコンピュータを目指して

◆執筆者		堀　貴明／荒木　章子／中谷　智広／中村　篤
◆所属		NTTコミュニケーション科学基礎研究所

近年、音声認識技術は多くの製品やサービスに導入されていますが、私たちが普段行っている会話を認識させようとすると、それらは精度や機能の面でまだ十分とはいえません。NTTコミュニケーション科学基礎研究所では、複数人の自由な会話の中で「いつ、誰が、何を、どのように話したか」ということを高い精度で認識する「会話シーン分析技術」の研究に取り組んでいます。本稿では、本技術の概要とこれまでの研究成果を紹介します。

音声と言語の一体型学習に基づく音声認識技術

◆執筆者		久保　陽太郎／小川　厚徳／堀　貴明／中村　篤
◆所属		NTTコミュニケーション科学基礎研究所

機械と人のより自然なインタラクションの実現を目的とした、話し言葉の音声認識技術が注目を集めています。話し言葉の音声認識は、世界のさまざまな研究機関が挑戦してきましたが、依然として困難な技術であるとされてきました。そこで私たちは、深層学習と呼ばれる最先端の学習理論を応用し、音声と言語の一体型学習に基づく音声認識技術を提案しました。本稿ではその技術と適用例について紹介します。

発話リズムを抽出・制御する音声信号処理

◆執筆者		廣谷　定男
◆所属		NTTコミュニケーション科学基礎研究所

日本語母語話者が英語を用いた音声コミュニケーションを円滑に行うためには、発話リズムが重要な役割を果たすと考えられます。本稿では、音声信号から発話リズムを抽出・制御するための技術である非負値時空間分解法について紹介します。

聴くことと身体を感じることのかかわり

◆執筆者		北川　智利
◆所属		NTTコミュニケーション科学基礎研究所

私たちは、自分の身体がどんな大きさで、どんな形をしているかを感じることができます。そして、自分の身体がいつも同じ形で安定しているように感じています。しかし実は、音にちょっとした細工をすることで身体にかかわる錯覚が生じることがあります。このような錯覚から分かってきたのは、私たちが自分の身体を認識する際には、聴覚が重要な役割を果たしているということです。本稿では身体を感じることと聴覚とのかかわりについて解説します。

□主役登場

「深層学習」を再発見する土壌

◆執筆者		久保　陽太郎
◆所属		NTTコミュニケーション科学基礎研究所　研究員