Focus on the News

音を認識するために訓練された深層ニューラルネットワークが脳における音の表現と類似した表現を獲得することを発見

PDFダウンロードPDFダウンロード

NTTは、音認識のために訓練された深層ニューラルネットワーク(DNN)が哺乳類の脳と類似した音の表現を獲得することを発見しました。
神経生理学者の長年の研究により、音に対する神経細胞の反応特性が、さまざまな動物種の脳において明らかとなってきています。本研究では、こうして観察されてきた神経細胞の性質を、なぜ脳が持つように至ったのか、という疑問に答えます。本研究ではDNNを自然音認識で訓練し、それを構成する素子の性質を調べる際に、動物の神経細胞を対象とした神経生理実験と同じ方法で分析する技術を用いました。その結果、脳と類似した音の表現が獲得されていることを発見しました。
本研究の発見から、脳が進化の過程で音の認識処理に適応した神経表現を獲得したことが示唆されます。また、本技術により、脳研究と人工知能研究のさらなる融合が期待されます。

研究の背景と経緯

ヒトを含む動物(哺乳類)の脳では、音が耳に届いてから認識されるまでに、脳幹から大脳皮質にいたる多段階の処理で音の特徴が分析されます。音の特徴の中でも、振幅変調(振幅の緩やかな変化)は音の認識に重要な手掛かりです。これまでの長年にわたる神経生理学の研究は、神経細胞が「どのように」振幅変調を表現しているのか、という疑問の答えを、聴覚神経系における多数の脳部位について明らかにしてきました。しかしながら、神経細胞が「なぜ」そのように振幅変調を表現するようになったのか(必然性はあるのか)、という疑問については、神経細胞の性質と進化の過程との関係を一般的な実験的アプローチでは確かめることが原理的に難しく、それに答えることができませんでした。
実験的なアプローチの問題を補完するものとして、計算機モデルによるシミュレーションは有効なアプローチかもしれません。ただし、従来の典型的な計算機モデルによるアプローチでは、音の特定の特徴に対して特定の神経回路の性質を詳細に再現することはできても、聴覚神経系の重要な機能である自然な音の認識との関係に言及することはできません。

研究の内容

近年、人工ニューラルネットワークを用いることで、自然で複雑な音の認識を実現できるようになってきました。本研究は、この技術を導入することによって前述の疑問にアプローチしました()。人工ニューラルネットワークの中でも、特にDNNは多数の素子からなる多数の層が縦列した構造をしている点で、聴覚神経系と同様な構造を持っているといえます。しかし、その点以外は、聴覚系の具体的な神経回路を模擬したものではありません。もし、このDNNが、動物と同様に自然な音を認識するよう訓練された結果として動物の脳と類似した特徴を獲得するならば、それは逆に、動物の脳が持つ性質が進化の過程で音認識に適応した結果である可能性を示すものといえるでしょう。
本研究では、自然音の分類課題のためにDNNを訓練したうえで、そのDNNを動物の脳を調べる神経生理学実験を模した方法によって分析しました。具体的には、訓練したDNNにさまざまな変調周波数(変動の繰り返しの速さ)を持つ音を入力し、DNNを構成する個々の素子について出力を調べました(図)。その結果、素子によっては特定の変調周波数にのみ強く反応することや、その反応特性は処理段階が進むとともに規則的に変化することなど、動物の聴覚神経系について過去の研究で報告されているものと同様な性質がDNNに発現していることが分かりました。
また、脳との類似性がDNNの訓練が進む過程で徐々に獲得されること、音の認識精度が高いDNNほど類似性が高いこと、自然音の認識に訓練しなかったDNNでは類似性がみられないことも分かりました。
以上の結果は、動物の脳において観察されてきた振幅変調の表現も、音の認識に適した性質が進化してきた過程で獲得されたものであるという可能性を示唆します。

本研究のアプローチ(模式図)

図 本研究のアプローチ(模式図)

今後の展開

音の認識に用いられる音の特徴は、振幅変調以外にも多くあります。今後は、人工知能研究の知見をさらに取り入れながら、振幅変調以外の多くの特徴についても、人工ニューラルネットワークと脳とを比較し、動物の脳が進化してきた過程についてより一般的な知見を得ることをめざします。

◆問い合わせ先
 NTT先端技術総合研究所
  広報担当
  TEL 046-240-5157
  E-mail science_coretech-pr-mlhco.ntt.co.jp
  URL https://www.ntt.co.jp/news2019/1907/190710a.html

研究者紹介

脳の理解に向けて

上村 卓也

NTTコミュニケーション科学基礎研究所
人間情報研究部 感覚共鳴研究グループ

上村卓也

私は、大学では神経細胞内の生化学反応の計算機シミュレーションや、神経活動の記録実験、深層学習による動物音声の認識などの研究を行っていました。その後、NTTに来て聴覚の研究をするようになり、聴覚神経系の性質を深層ニューラルネットワークでモデリングできるのではないかと考えるようになりました。そこから、聴覚心理学、神経科学、機械学習などの各分野の専門家と議論を重ねながら、研究を進めてきました。
神経科学の研究では、医学的工学的応用につながりやすい「脳がどのように動くのか」という疑問はよく取り組まれていますが、より学術的な「なぜそのように動くようになったのか」という疑問は見過ごされがちです。脳を理解するためには、これらの両方の疑問に答える必要があります。そもそも基礎研究では、「何を理解すれば理解したことになるのか?」ということすら分かっていませんし、それは調べる対象(脳を理解したいのか宇宙を理解したいのか)によっても異なってくると思います。私は、これまでにさまざまな分野の方法を用いて研究してきたという経験を活かし、脳を理解するという難しい問題にアプローチしていきたいと考えています。
本研究は、脳を理解するためのまだまだ一歩にすぎません。今後は、まず、本研究で用いた方法論を振幅変調以外の音の特徴や、聴覚以外の認知機能にも適用することを試み、先人たちが築いてきた脳への理解を少しでも深められるよう、研究を続けていきます。

ページトップへ