入力音声には「電総研 単語音声データベース(ETL-WD)[29]」から母音/a,i,u,e,o/を含む100msの音素を切り出した。調音結合の影響を排除するために、音素の前後50msは無視している。この音素を12.5ms
ごとに分割した音声データから短時間フーリエ変換(STFT)により101点のパワースペクトルを求め、これを16次元のベクトルに圧縮してネットワークへの入力とした。この詳細を表6.1と図6.5に示す。
Table 6.1:
入力データの形式
| 話者 |
日本人男性1名 |
| サンプリング周波数 |
16kHz |
| STFTの窓関数 |
Hamming窓 |
| フレーム長 |
12.5ms |
| 1フレームあたりのサンプル数 |
200 |
|
Table 6.2:
入力ベクトルの構成
| 入力ベクトルの次元 |
周波数帯(小数点第2位四捨五入) |
| 1 |
158.4Hz - 237.6Hz |
| 2 |
237.7Hz - 396.0Hz |
| 3 |
396.1Hz - 554.5Hz |
| 4 |
554.6Hz - 712.9Hz |
| 5 |
713.0Hz - 950.5Hz |
| 6 |
950.6Hz - 1188.1Hz |
| 7 |
1188.2Hz - 1425.7Hz |
| 8 |
1425.8Hz - 1663.4Hz |
| 9 |
1663.5Hz - 1901.0Hz |
| 10 |
1901.1Hz - 2138.6Hz |
| 11 |
2138.7Hz - 2376.2Hz |
| 12 |
2376.3Hz - 2693.1Hz |
| 13 |
2693.2Hz - 3010.0Hz |
| 14 |
3010.1Hz - 3485.1Hz |
| 15 |
3485.2Hz - 4118.8Hz |
| 16 |
4118.9Hz - 4910.9Hz |
|
root
2010-02-26