2002年度 森泰吉記念研究振興基金 報告書

メディアデータを対象としたデータマイニング方式とビジュアリゼーションに関する研究

政策・メディア研究科博士課程1年

図子泰三 / 80266169 / tz@sfc.keio.ac.jp

 

 

1.      研究の目的

メディアデータを対象とした文脈理解機能を有するデータマイニング方式に関する研究

ここでのメディア(マルチメディア)データとは,文字・数値データの他に,画像,音声,動画像,ドキュメントなどのデータを示す.本研究では,これらのメディアデータを対象として,関連をあるデータのグルーピングを行なうデータマイニング方式の開発を行なう.具体的には,分析者の分析時の文脈(視点)に応じた動的なクラスタリング方式(文脈依存動的クラスタリング)を提案する.さらに,分析によって得られたクラスタ群から,それぞれのクラスタがどのようなことに関するデータ集合であるのかを調べるための知識発見方式(意味的データマイニング方式)を提案する.

 

提案データマイニング方式によって導出される結果のビジュアリゼーションに関する研究

各種メディアデータを対象として,ユーザ(検索者,分析者)の視点(文脈)に応じた検索,分析(データマイニング)の結果の可視化(visualization)を行なうシステムを構築する.具体的には,ユーザの検索(分析)結果を,コンピュータグラフィック(CG)技術を用い,3次元(もしくは2次元)空間上に表現する可視化方式の提案を行なう.これによって,ユーザの直観的な情報獲得が可能となり,さらに,文字・数値データによる結果表示では得られない,新たな情報獲得が可能となる.

 

2.      提案方式

研究目的を実現するための提案方式の詳細について述べる.ここでは,研究目的の項で分類した,デーマイニング方式と可視化方式のそれぞれについて独立に述べる.

 

2.1.      メディアデータを対象とした文脈理解機能を有するデータマイング方式に関する研究

文脈依存動的クラスタリング

メディアデータ群を対象とした分析者の文脈に応じたクラスタリング分析を行なう.文脈に応じたデータの動的な意味解釈については意味的連想処理機構を応用し,メディアデータ間の意味的相関量を計算することによって文脈依存動的クラスタリングを実現する.意味的連想処理機構は,メディアデータを多次元の意味空間に配置し,ユーザから文脈が与えられた時に,この文脈に相関の高い軸によって構成される部分空間を選択する.選択された部分空間にメディアデータをマッピングし,部分空間上でメディアデータをクラスタリングすることによって,ユーザの文脈に応じたクラスタリング(データ分析)方式の実現が可能となる.

 

意味的データマイニング方式

文脈依存動的クラスタリングにより抽出されたクラスタを対象として,各クラスタ内のメディアデータ群のメタデータに着目し,メディアデータ群を構成するメタデータを対象としてデータマイニングアルゴリズムを適用し,共通する性質を知識として抽出する方式を実現する.

 

意味的再帰的クラスタリング

文脈依存動的クラスタリングによって形成された各クラスタを対象として,メディアデータ群を構成するメタデータの確信度(ここでの確信度とは,クラスタ内のメタデータ群の出現頻度であり,確信度が高いほど,より共通の性質を有しているメディアデータが同一のクラスタに存在していることを示す)を計算し,確信度の高いクラスタ群が形成されるまで,文脈依存動的クラスタリングを再帰的に繰り返し適用する.これによって,1度のクラスタリングの適用によって得られたクラスタ群と比較して,より共通性の高いメディアデータのグループの獲得が可能となる方式を実現する.

 

2.2.      提案データマイニング方式によって導出される結果のビジュアリゼーションに関する研究

意味的連想処理機構を用い,メディアデータの関連性を評価する場合,多次元空間上(Multi-dimensional space)においてデータ間の計量を行なう.このような計量空間上に格納されているメディアデータを可視化する場合,多次元空間から3次元(2次元)空間へ次元縮退(dimension reduction)を行なう必要がある.さらに,縮退された低次元空間上で,メディアデータの直観的な獲得を可能とする視覚化方式が必要となる.

 

次元縮退方式

意味的連想処理機構では,多次元データ計量空間から,分析者の文脈・視点に対応した(相関の強い)部分空間を選択することが可能である.この部分空間選択機能を適用することによって,関連性の低い軸のフィルタリングを行なう.さらに,この部分空間の中から,視覚化可能な3次元(2次元)へと次元を現象させる次元縮退方式を新たに提案する.具体的には,部分空間を構成する次元のうち,より分析者の与える文脈・視点を強く表現している(影響を与えている)3軸(2軸)を選択し,その3軸(2軸)にデータ群を集約することによって,新たなデータ表現を生成する.

 

視覚化方式

次元縮退方式によって3次元(2次元)で表現されたメディアデータ群を,視覚的に表示することを実現する方式を提案する.具体的には,3D(2D)グラフィックス技術を用い,データオブジェクトの形状,色,大きさなどの特性を動的に変更することが可能な方式の実現を行なう.

 

3.      研究成果

今年度は,「メディアデータを対象とした文脈理解機能を有するデータマイニング方式に関する研究」を中心に進めてきた.今年度中には学会などでの研究発表は行えなかったが,次年度,具体的には5月に情報処理学会データベース研究会にて,「事象データ群を対象とした時間的関連性を考慮した意味的連想検索の実現」というタイトルで発表する予定である.また,この研究を発展させて国際学会に投稿する予定である.

 

4.      関連する研究成果

1.         吉田 尚史,図子 泰三,清木 康,北川 高嗣, ``ドキュメントデータを対象とした意味的連想処理機構による動的クラスタリング方式 ,'' 情報処理学会研究報告, 情報処理学会データベースシステム研究会, 99-DBS-118, pp.89-96, 1999.

2.         吉田 尚史,図子 泰三,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングおよび意味的データマイニング方式,'' 情報処理学会論文誌:データベース, Vol. 41, No. SIG 1 (TOD5), pp.127-139,2000.

3.         図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングを用いた意味的知識発見方式,'' 情報処理学会研究報告,情報処理学会データベースシステム研究会, 2000-DBS-122, pp.331-338, 2000.

4.         図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式,'' データベースとWeb情報システムに関する合同シンポジウム(DBWeb2000), pp.221-228, 2000.

5.         図子 泰三,吉田 尚史,清木 康, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリング再帰的適用による意味的知識発見方式'',情報処理学会論文誌データベース(TOD13)