入出力データの形式

入力音声には「電総研単語音声データベース（ETL-WD）[29]」から母音/a,i,u,e,o/を含む100msの音素を切り出した。調音結合の影響を排除するために、音素の前後50msは無視している。この音素を12.5msごとに分割した音声データから短時間フーリエ変換（STFT）により101点のパワースペクトルを求め、これを16次元のベクトルに圧縮してネットワークへの入力とした。この詳細を表6.1と図6.5に示す。

**Figure 6.5:** 音声データの切り出し

Table 6.1: 入力データの形式

話者	日本人男性1名
サンプリング周波数	16kHz
STFTの窓関数	Hamming窓
フレーム長	12.5ms
1フレームあたりのサンプル数	200

Table 6.2: 入力ベクトルの構成

入力ベクトルの次元	周波数帯（小数点第2位四捨五入）
1	158.4Hz - 237.6Hz
2	237.7Hz - 396.0Hz
3	396.1Hz - 554.5Hz
4	554.6Hz - 712.9Hz
5	713.0Hz - 950.5Hz
6	950.6Hz - 1188.1Hz
7	1188.2Hz - 1425.7Hz
8	1425.8Hz - 1663.4Hz
9	1663.5Hz - 1901.0Hz
10	1901.1Hz - 2138.6Hz
11	2138.7Hz - 2376.2Hz
12	2376.3Hz - 2693.1Hz
13	2693.2Hz - 3010.0Hz
14	3010.1Hz - 3485.1Hz
15	3485.2Hz - 4118.8Hz
16	4118.9Hz - 4910.9Hz

root 2010-02-26