入力音声には「電総研 単語音声データベース(ETL-WD)[29]」から母音/a,i,u,e,o/を含む100msの音素を切り出した。調音結合の影響を排除するために、音素の前後50msは無視している。この音素を12.5ms
ごとに分割した音声データから短時間フーリエ変換(STFT)により101点のパワースペクトルを求め、これを16次元のベクトルに圧縮してネットワークへの入力とした。この詳細を表6.1と図6.5に示す。
Table 6.1:
入力データの形式
話者 |
日本人男性1名 |
サンプリング周波数 |
16kHz |
STFTの窓関数 |
Hamming窓 |
フレーム長 |
12.5ms |
1フレームあたりのサンプル数 |
200 |
|
Table 6.2:
入力ベクトルの構成
入力ベクトルの次元 |
周波数帯(小数点第2位四捨五入) |
1 |
158.4Hz - 237.6Hz |
2 |
237.7Hz - 396.0Hz |
3 |
396.1Hz - 554.5Hz |
4 |
554.6Hz - 712.9Hz |
5 |
713.0Hz - 950.5Hz |
6 |
950.6Hz - 1188.1Hz |
7 |
1188.2Hz - 1425.7Hz |
8 |
1425.8Hz - 1663.4Hz |
9 |
1663.5Hz - 1901.0Hz |
10 |
1901.1Hz - 2138.6Hz |
11 |
2138.7Hz - 2376.2Hz |
12 |
2376.3Hz - 2693.1Hz |
13 |
2693.2Hz - 3010.0Hz |
14 |
3010.1Hz - 3485.1Hz |
15 |
3485.2Hz - 4118.8Hz |
16 |
4118.9Hz - 4910.9Hz |
|
root
2010-02-26