音声認識への適用

これまでのウェーブレットネットワーク研究では単層での非線形関数近似に主眼が置かれており,多層モデルの研究は殆ど行われていない.本研究では,従来のウェーブレットネットワークモデルに通常のニューラルネットワークで用いられるシグモイド関数で構成した層を重ね,多層化を行う.

先行研究で多層化が行われてこなかった背景には,ウェーブレット本来の持つ計算の複雑さにあると考えられる.信号解析の分野では単純なモデルとしてウェーブレットが取り扱われることもあるが,それをニューラルネットワークに適用したときの初期化理論や学習過程で行われる微分計算が,従来のニューラルネットワークに比べ非常に複雑になりがちである.しかし後述するが,特定の問題領域に対する汎化性能については議論の余地はあるものの,使用するウェーブレットの選定と離散化パラメータ(離散Gridの配置)に十分考慮すれば,これまでのニューラルネットワークに対して汎化性能を落とさずに計算速度を向上させられるできることを,学部の卒業論文で行った実験により確認している.

本研究ではそれを更に一歩進め,実際に人間の話した音声を利用してその解析を行うことのできるネットワークの構築を行う.これは前述したウェーブレットネットワークを,Time-Delay Neural Networkをベースに多層に拡張し,より大規模な波形解析を可能とするものだ.



Subsections

root 2010-02-26