現在の音声認識技術は図6.1に示す通り,周波数解析部,音素認識部,単語認識部,文認識部の4部分から成り,この結果から入力音声を解析するものだ[23].
音声認識の方式としては,単語単位の認識や音節単位の認識などがあるが,本研究ではそれらよりも詳細な音素レベルでの認識を行う.これは,調音結合の影響を受けやすく一般的には難しい方式であるが,ニューラルネットワークを用いることによって音素の前後の影響の組みいれができること,さらにウェーブレットネットワークを用いることによって子音の詳細な分析が行えることなどによって高い精度と効率性が期待できる.
まず,マイク等で集音した音声から周波数解析部で雑音を除去し,数ms~十数ms毎にスペクトルを計算する.次に,時系列上のスペクトルの特徴量から音素を認識する.推定した音素列に最も近く文法的・意味的に正しいと思われる単語を単語認識部で推定し,最後に,文認識部でこれらの単語から文を構成する.またこのプロセスにおいては,音素認識部でのエラーを単語認識部で訂正し,単語認識部でのエラーを文認識で訂正する.そのため,各認識部での認識・訂正の効率性によって音声認識全体の効率性及び精度が左右される.
本研究ではこのシステムの下層にあたる音素認識部に焦点を当て,ウェーブレットネットワークを用いることにより信号処理とパターン認識との両側面からのアプローチを行う.ただし、この過程で必要となるマイク入力からサンプリングまでの処理は,既存の音声コーパス[29]を利用することで代替する。
本研究では,Time-Delay Neural Network第1 隠れ層の活性化関数をウェーブレット関数に置き換えることを基礎とする.これにより,入力スペクトルの時系列上での特徴がウェーブレットの線形結合で表現されたものが第2 隠れ層への入力となり,ここで入力スペクトルの時系列上での特徴が抽出されると考えられる.更にパラメータ調整を経て出力層の各ニューロンへ送り,それぞれの音素に対応するニューロンが発火する.この構造を図6.2に示す。