弾性テンプレートモデルによる手の形状認識

report

弾性テンプレートモデルによる手の形状認識

目的

本研究では、カメラを用いた非接触型のジェスチャー認識システムを 構築することを目的としている。ジェスチャー認識システムの構築は、 より人にやさしいインターフェイスの開発のため必要とされている。 例えば、高齢者・障害者が情報家電を操作する際、 学習されたジェスチャーにより意思伝達を行うことが出来るシステムを 想定している。(図1)その他、工事現場等の騒音環境中での ジェスチャーによる指示だし、セキュリティーシステムにおける ジェスチャーによる警報機のコントロール等を想定している。 本研究では、ジェスチャー認識システムのうち、 手の形状認識問題を扱い、複雑な背景下での認識問題に対する アプローチの一つを提案することを目的とする。


図1 ジェスチャーによる情報家電操作

背景

近年の形状認識に関する研究では、統計的な手法と構造的な手法の両側面を持 つ自己組織化を用いた位相保持マップ手法が提案されている。([1],[2])こ れらの手法は対象物の位置ずれや変形に柔軟に適応することが可能であるが、 二次元の位相を保持するために多くの演算素子を必要とするために最適化に時 間がかかってしまうという欠点がある。本研究では、これらの手法が位相保持 により形状の制約を持っていたのに対し新たな傾き制約の項を導入することに より、一次元の演算素子配列を用いた形状認識を可能にし、高速な認識モデル を構築した。本手法の有効性を示すため、数パターンの手の形状を弾性テンプ レートモデルを用いた場合の認識結果と構造的な手法を用いた場合の結果、統 計的な手法を用いた場合の結果と比較する。

弾性ネット手法

本研究で提案する弾性テンプレートモデルは、巡回セールスマン問題へのアプ ローチとして知られる、弾性ネット手法[3]を形状認識問題へ応用した手法で ある。弾性ネット手法は、円結合したビーズと呼ばれる素子が“ゴムのような” 弾力性を持ちながら訪問すべき都市を探索するモデルである。それぞれのビー ズは、隣り合ったビーズに引かれる力と近くの都市から引かれる力の影響を受 ける。弾性ネット手法の結合関係は図2のようになっている。


図2 弾性ネットモデル

弾性テンプレートモデル

弾性テンプレートモデルでは、弾性ネット手法を形状認識に応用するため、新 たにテンプレートニューロン層を追加した(図3)。


図3 弾性テンプレートモデル

弾性テンプレートニューロンは下式の更新式にしたがって更新される。

更新式の左項は相関の高い入力に近づくための項、右項はテンプレートの形を 保持するための項である。

実験

実験では、グー、チョキ、パーの3通りの手の形状を学習し、1.理想条件に よる認識実験 2.背景ノイズがある場合の認識実験 3.位置ずれがある場 合の認識実験 4.実行時間の計測 を行った.

理想条件による認識実験

背景ノイズや位置ずれのない理想的な環境下での認識実験を行った。構造的な 手法であるテンプレートマッチング手法、統計的な手法である最近隣法と結果 を比較する。

テンプレートマッチ

最近隣法

 弾性テンプレート

   61%

63%

    82%

背景ノイズがある場合の認識実験

背景ノイズがある場合の結果を比較する。

テンプレートマッチ

   最近隣法

弾性テンプレート

50%

   40%

    76.7%

位置ずれがある場合の認識実験

前処理の失敗による位置ずれがある場合の結果を比較する。

テンプレートマッチ

  最近隣法

弾性テンプレート

  43.3%

   60%

    65%

実行時間の計測

入力画素数が変化した場合の実行時間の変化を比較する。実験では、Celeron 300MHzマシンを用いた。


実行時間の計測

結論

弾性テンプレートモデルは、統計的な手法と構造的な手法の双方の長所を生か し、歪み・ノイズ・位置ずれ・回転などの変化に柔軟に適応できる手法である。 また、入力画素数の変化に対して実行時間がほぼ比例し、実用化可能な手法で ある。

今後の課題

今後の課題として、ジェスチャーの認識を静止画だけでなく動作と関連付けて 評価することを考えたい。例えば、グーで手を回すと「O.K.」、パーで手を横 に振ると「バイバイ」など、動作と手の形の二つの情報を用いて認識を行うシ ステムである。二つの認識処理を組み合わせることで認識率がさらに向上する だけでなく、より人のコミュニケーション形態に近いインターフェイスの開発 が期待できる。

参考文献

[1] Bienenstock, E. and Doursat, R.: A shape recognition model using Dynamical Links, Neworks, 5, 241-258(1994)
[2] Buhmann, J., Lange, J., von der Malsburg, C., Vorbruggen, J.C., Wurtz, R.P. and Konen, W.: Distortion Invariant Object Recognition in the Dynamic Link Architecture, Neural Computation, 5, 719-735(1993)
[3] Durbin, R., and Willshaw, D.: An analogue approach to the traveling salesman problem using an elastic net method. Nature, 326, 689-691, 1987

end of file