2009年度 森泰吉郎記念研究振興基金 研究成果報告書

研究題目:確率共振現象を用いる音声認識システムの開発

従来、信号処理や信号感知においてノイズや雑音はそれらを妨げるものとされてきた。その前提の元、様々なノイズ除去・軽減方法が提案され、普及していった。それらの方法によって信号技術はめざましい発展を遂げ現代の日常生活を支えている。
本研究ではこれらの状況を踏まえたうえで信号処理または感知におけるノイズを有効的に利用する方法の開発を目指す。具体的には確率共振[図1]という「特定条件下において適度なノイズが微弱な信号の検出を可能にする」現象の音響環境への応用方法を探る。確率共振現象はMossらによって1993年にNatureで紹介された後、多分野の研究者によって多くの論文が書かれ、レーザー、温度計、ザリガニ、チョウザメなど様々な物理系・神経系でこの現象が発見されている。しかし、この現象をいかに引き起こすか、すなわち確率共振現象の応用方法はいまだに確立されていない。本研究ではこの応用方法の開発、具体的には音響空間での確率共振現象の実現を目指す。これにより、従来は検出できなかった微弱な音声の検出が可能になり、この成果は音声認識システムの発展に寄与すると考えられる。今年度はは確率共振現象を起こしている条件を特定することを目指して、音響空間での実験(確率共振現象を使った微弱音声検出システムの開発)と脳機能計測を用いた実験(近赤外分光機能画像法を使った視覚におけるノイズと見やすさの関係性の解明)を行った。

図1:確率共振現象のイメージ図

確率共振現象を使った微弱音声検出システムの開発

概要

本研究では、雑音環境下における音声認識システムの実現に向けて、確率共振現象の概念を使って従来は困難だった微弱な音声を検出容易にするシステムを作成する。現在音声認識システムは発話者が座った状態で、静かな環境であれば認識率が95%を超えている。しかし、(1)発話者が移動中の場合と(2)雑音環境下においてはいまだに認識率が低く、実用化に至っていない。本研究では、音声検出システムにCollinsらの確率共振現象モデル[1]を応用することで微弱な音声を検出を実現し、(2)雑音環境下における音声認識率の向上を目指す。これにより、音声認識システムを大幅に改良できる可能性があり、その結果として音声認識システムが最もその性能を発揮するであろう公共空間での実用化が期待できる。

背景:コンピュータシミュレーションでの確率共振モデル

背景として確率共振現象のコンピュータ上でのモデルを説明する。まず、図2の単一素子における確率共振現象が基本のモデルとなる。このモデルにおいてはある素子に対して、インプットとして微弱な信号(閾値以下の信号)を加えるとアウトプットとして微弱な信号(閾値以下の信号)が出力される。しかし、同時にインプットに適当な分散のノイズを入力すると、アウトプットとして閾値を越えた信号が出力される。

図2:単一素子における確率共振現象
上記を改良したモデルが、図3の並列素子における確率共振現象である。このモデルはCollisらが考案し[1]、上記のモデルでは周期信号しかエンパワーメントできなかったが、このモデルを使うことで非周期信号のエンパワーメントが可能になる。このモデルは、基本モデルを並列化して対し合わせることで、分散が同じであるノイズが消え、オリジナルの信号が残るという仕組みである。

図3:並列素子における確率共振現象

設計

本研究ではコンピュータ上での確率共振モデルであるCollinsの並列素子モデルが、音響空間にも応用できるという仮定の元、図4の音響空間における確率共振現象を使った音検出システムを設計した。具体的な構成としては、Collinsモデルにおける単一素子をダイナミックマイクロフォンにし、信号の加算装置をミキサーにした。現時点では、マイクロフォン2台、ミキサー1台でこのシステムを構成している

図4:音響空間における確率共振現象を使った音検出システム

今後の展望

現時点でこのシステムが抱える問題は2つある。ひとつは入力素子が少ないため、出力される信号にノイズが残ってしまっている。この問題は入力素子を増やせば解決できるが、理論上は素子を500以上にしないとノイズを強要範囲まで取り除けない。しかし、このシステムにおける素子はダイナミックマイクロフォン(いわゆる通常使うマイク)なのでそれを500個並べるのは現実的でない。そのため素子を小型マイクなどに変更する必要がある。ふたつめの問題は電気回路内でノイズが発生し、出力される信号にノイズが乗ってしまっている。この問題は使用するケーブルなどをより高品質にすることで解決できると予想される。

近赤外分光機能画像法を使った視覚におけるノイズと見やすさの関係性の解明

概要

本研究では確率共振研究のひとつである「視覚における確率共振現象」[2]をもとに近赤外分光機能画像法を使って視覚におけるノイズと見やすさの関係性の解明する。Simonottaは特殊な加工をしたグレースケールの強さを操作できる画像を用意し、その画像にノイズを加えながら被験者に画像に何が写っているか訪ねる実験を行った。この時、何が写っているか認識できなかった画像に適当なノイズを加えることで認識できることがあきらかになった。本研究では、認識した後の見やすさに着目し、視覚におけるノイズの乱雑さ(分散)と信号の強さ、見やすさの3つの関係を明らかにする。

背景

1997年にSimonottaらは画像に特殊な加工し、視覚における確率共振現象のメカニズムを解明した。具体的な加工の仕方は、オリジナルの画像にフィルターをかけ、そこに任意の分散のノイズを加える。Simonottaらはこの画像を被験者に見やすさを評価させる実験を行った。結果としては、適当な分散のノイズを加えたときに見やすさが最適されることがわかった。

図5:視覚における確率共振現象

実験

本研究では、このSimonottaらの方法を使った加工した画像を被験者に見せ、その際の被験者の脳活動、具体的には頭皮の血流、を計測した。被験者は5人、計測機器には30チャネルNIR"S"tation(島津製作所)を使用した。実験のプロトコルは図6に示した通りである。このプロトコルを60回1セットで、被験者1人につき3セット行った。

図6:実験のプロトコル

結果と考察

結果としては、後頭部における血流活動に反応が見られた。後頭野は視覚の情報処理を行っていることがわかっており、そのためこの反応がおきたと考えられる。しかし、血流活動とノイズの分散の明確な関係性は今回統計的に有意には出なかった。今後は被験者数を増やすなどの追加実験が必要と考えられる。

 

学会発表

対外発表として、下記の国際学会にてポスター発表を行った。

 

基金の使用用途

森基金の使用用途としては、近赤外分光機能画像法を使用するための装置であるNIRSのセットアップ費、実験における被験者・協力者への謝礼、音響空間で実験を行うための機材の購入、日々の研究で必要な文具・書籍の購入にあてた。また、今回の実験を振り返り今後必要であると考えられた、高速処理が可能かつ実験被験者・実施者がより実験を正確に実行できるための大型のスクリーンを持ったデスクトップパソコンも購入した。

 

参考文献