時間遅延を含む入力

1個の入出力パターンは、16次元の入力ベクトル15個、5次元の出力ベクトル1個から構成される。出力は、5つのパターンのうちどれに該当するかを示す基底ベクトルであり、例えばパターン3を示す出力は と表現される。

入力に関しては前述した通り12.5msの音声データのパワースペクトルを表6.2.1に従って16次元に圧縮ものであり、これを16個で1セットとしている。つまり、最初の12.5msを起点として、そこから6.25msずつずらして入力サンプルを取得した。入力データのサンプリング周波数は16kHzなので、12.5msは200点のデータ列として取得している。この16次元ベクトルを1フレームとして、ネットワークへの入力はこれを15フレーム分並べたものを用いる。つまり、100ms分の音声データを50%(6.25ms)の重複を持つ15個のデータに分割する。これは、時系列上での変化の度合いが音声データの特徴量に含まれるためであり、スペクトルの変動をネットワークへの入力とするためだ。



root 2010-02-26