短時間フーリエ変換

時系列信号のフーリエ変換は式(4.1)で定義される。

    (9)

のパワースペクトルと呼ばれ、の周波数成分の分布を表す。しかし式(4.1)にあるとおりこれはを時間で積分しているため、``がどのような分布を持つか''を知ることはできるが``その分布が時間軸上のどの点で存在しているか''を調べることができない。そこで、を適当な時間幅ごとに区切り、それぞれをフーリエ変換することで時間軸上の分布を知ろうとする。これがSTFTである。音声認識においては、まずSTFTを用いて音声信号の特徴量(パワースペクトル)を抽出し、そのパターンを入力とする。STFTは式(4.2)で定義される。
    (10)

は窓関数と呼ばれるもので、を時間軸上の任意の範囲で切り出すための利用される。これにはHanning窓やHamming窓等が採用される。式中のは信号を``切り出す''長さを表す。
(11)
(12)

Figure 4.1: Hanning窓(
Figure 4.2: Hamming窓(
 

Figure 4.3: STFTの周波数分解能と時間分解能の関係図

式(4.2)~(4.4)に示した通り、STFTで使われる窓関数の幅(定義域)は固定値であり、どの周波数帯についても常に同じ分解能で解析を行うことになる。これを図4.3に表した。それぞれのグリッドが分解能の大きさに対応しており、全ての時間帯・周波数帯で同じ分解能を持つことを表している。この分解能は、原信号のナイキスト周波数・窓関数の幅()・適用した窓関数の個数によって決まる。STFTによる信号の切り出しと周波数解析の概略を図4.4に示す。なお、時間分解能と周波数分解能の積は常に一定であり、時間分解能を高くすると周波数分解能が、周波数分解能を高くすると時間分解能が低くなる。これをフーリエ変換の不確定性原理という。またSTFTでは、1度の解析で複数の分解能を使い分けることができないため、時間軸上での周波数の変動を捉えることは難しい。

Figure 4.4: STFTによる信号の切り出しと周波数解析の概略図

root 2010-02-26