入出力データの形式

入力音声には「電総研 単語音声データベース(ETL-WD)[29]」から母音/a,i,u,e,o/を含む100msの音素を切り出した。調音結合の影響を排除するために、音素の前後50msは無視している。この音素を12.5ms[*]ごとに分割した音声データから短時間フーリエ変換(STFT)により101点のパワースペクトルを求め、これを16次元のベクトルに圧縮してネットワークへの入力とした。この詳細を表6.1と図6.5に示す。

Figure 6.5: 音声データの切り出し


Table 6.1: 入力データの形式
話者 日本人男性1名
サンプリング周波数 16kHz
STFTの窓関数 Hamming窓
フレーム長 12.5ms
1フレームあたりのサンプル数 200



Table 6.2: 入力ベクトルの構成
入力ベクトルの次元 周波数帯(小数点第2位四捨五入)
1 158.4Hz - 237.6Hz
2 237.7Hz - 396.0Hz
3 396.1Hz - 554.5Hz
4 554.6Hz - 712.9Hz
5 713.0Hz - 950.5Hz
6 950.6Hz - 1188.1Hz
7 1188.2Hz - 1425.7Hz
8 1425.8Hz - 1663.4Hz
9 1663.5Hz - 1901.0Hz
10 1901.1Hz - 2138.6Hz
11 2138.7Hz - 2376.2Hz
12 2376.3Hz - 2693.1Hz
13 2693.2Hz - 3010.0Hz
14 3010.1Hz - 3485.1Hz
15 3485.2Hz - 4118.8Hz
16 4118.9Hz - 4910.9Hz


root 2010-02-26