脳の低次情報処理の実装〜背景に依存しない画像中の文字列抽出

report

脳の低次情報処理の実装〜背景に依存しない画像中の文字列抽出

概要

本研究では、背景に依存しない画像からの文字列抽出を行うニューラルネット ワークモデルを提案する。ディジタル画像からの文字認識は、従来から多くの 手法によって解法が提案されているが、パターン認識問題に特有な計算コスト の増大に耐え得るシステムは未だ実現されていない。本手法では、人間が持つ 視覚情報処理システムの階層構造に着目して柔軟な文字列抽出を実現し、従来 の研究に対するブレイクスルーを示す。

文字列は同じ色で構成された文字群の整然とした並びと定義する。まず、入力 画像に対してL*a*b 色空間を用いて色による領域分割を行い、さらに、色分割した各領域から一文 字を囲む外接矩形を抽出する。ニューラルネットワークは制約条件に従って外 接矩形をグルーピングし、効率的に文字列を抽出する。

提案する手法では、文字の形やフォントのような膨大な情報を扱うことなく文 字列を抽出し、ニューラルネットワークが画像認識にとって有効であることを 示した。

目的

複雑な背景の含まれた画像中から文字列領域のみを抽出する。


図1:本研究の目的:(上)入力画像;(下)出力画像

問題意識

  • 「ヒューズの現象」「次元の呪い」…パターン認識の分野において、識 別したい特徴(ベクトル)に比べて、パターン空間を形成するための 十分なパターン数を用意しても、精度の高い認識システムが実現でき ていない研究が従来は多く存在する。
  • 「文字列」と「背景」という2つの特徴のみでも、パターン空間をうま く切りわけられる絶対的な条件はあるのか?


図2:不完全なパターン境界生成の例

文字列抽出の戦略

・文字列のみを抽出する絶対的な条件を決めることは困難だ、と考えた。

- (理由)対象となる記号が文字列であるかどうかの知識を持ちえない。

- 我々が文字を視覚で捉える時、文字か文字でないかの判断はそれぞれの 人の知識(主観)とその時の状況に基づいて、確率的に行っている。


図3:文字列と背景を分離する要因に関する図示;円と見えるか文字列と見えるかは人によって異なる

  • 高い確率で文字列と判断できる 一番落ち着きのいい状態を定義した 制約条件に基づいて、文字列を抽出する 「最適化問題」と捉えた。

  • 人間の脳の知覚システムで行われている階層構造を利用し て、文字列抽出において低次から高次への情報の統合を試みた。

実験結果


図3:実験結果例

まとめ、今後の課題

  • 色情報を利用した分割処理によって、文字列の含まれる領域をシンプル に同定した。

  • 一文字を囲む外接矩形の最適な状態を見つけることで、文字列抽出を実 現した。

  • 一文字を外接矩形とみなしそれを統合することで、人間の知覚システム に近いモデルを実現できたため、本システムは文字列抽出問題に対す る本質をついた解である。

  • 外接矩形を統合するために全結合型ニューラルネットワークを用いて、 ニューラルネットワークの画像認識問題に対する有効性を 示した。

  • 本システムは、欠損を補完することも可能になり、汎用性の高いシステ ムである。

研究成果

・ 学会発表

− 大来進, 味岡義明, 武藤佳恭, “ニューラルネットワークを用いた 顔パーツの確率的な抽出”, 日本人間工学会全国大会, 1998.

− Susumu Ohkita, Yoshiaki Ajioka, and Yoshiyasu Takefuji, “Detection of Human Facial Parts using Infrared and Visible Images”EANN’98, gibraltar, 1998.

・ 論文

− Susumu Ohkita, and Yoshiyasu Takefuji,“Detection of Human Facial Parts using Infrared and Visible Images”, International Journal of Knowledge-Based Intelligent Engineering Systems, 1999.(査読中)

・ 特許

− 伊藤篤, 大来進, 岡宗一, 武藤佳恭, “画像中の背景に依存しない 文字列と背景の分離”, 2000. (富士ゼロックスから申請中)

end of file