2001年度 森泰吉記念研究振興基金 報告書

「ドキュメントマイニングシステムにおける情報可視化に関する研究」

政策・メディア研究科修士課程2年

図子泰三 / 80031771 / tz@sfc.keio.ac.jp

 

研究の概要

本研究では,ドキュメントデータ群を対象とした情報可視化方式を提案し,実験システムを構築することによって,その有効性を確認する.本研究の目的は,ドキュメントデータ群を対象として,3Dグラフィック技術を使用し,視覚的に表示することによって,新たに情報獲得・知識発見の機会を増大させることを支援するシステムを構築することである.

ドキュメントデータは,通常,多くの単語群,すなわち,多次元のメタデータによって索引付け(indexing)されている.例えば,SFCのホームページのメタデータを考えた場合,次のように表現することができる.

 

ドキュメントID(URL)

メタデータ

http://www.sfc.keio.ac.jp/

大学 大学院 学校 教育 学部 環境情報 総合政策 看護医療 政策・メディア 湘南藤沢

 

上記のようなドキュメントデータのデータ間の意味的な関係を調べる場合,多次元のデータ計量空間が必要となる.また,多次元データを3次元座標で視覚的に表現するには,次元を縮退させる方式が必要となる.そして,最後に,実際に3次元空間に図形として表現するための,視覚化技術が必要となる.これらの3点について,詳細を述べることにする.

 

l         多次元データ計量空間

著者が所属する研究グループでは,マルチメディアデータを対象とした,多次元メタデータを計量する方式として,意味的連想処理方式を提案している.この方式をドキュメントデータ群に適用することによって,ドキュメントデータ間の意味的な距離を計量する空間の実現が可能となる.

l         次元縮退方式

意味的連想処理機構では,多次元データ計量空間から,分析者の文脈・視点に対応した(相関の強い)部分空間を選択することが可能である.この部分空間選択機能を適用することによって,関連の少ない軸のフィルタリングを行う.さらに,この部分空間の中から,視覚化可能な3次元へ次元を減少させる,次元縮退方式を新たに提案する.具体的には,部分空間を構成する次元のうち,より分析者の与える文脈・視点を強く表現している(影響を与えている)3軸を選択し,その3軸にデータ群を集約することによって,新たなデータ表現を生成する.

l         視覚化方式

次元縮退方式によって3次元で表現されたデータ群を,どのように表示するかを実現する方式を提案する.具体的には,3Dグラフィックライブラリを使用し,データオブジェクトの形状・色・大きさなどの特性を動的に変更することが可能な方式の実現を行う.

 

本年度の研究進捗状況

本年度は,上記の研究の概要で述べた3つのテーマのうち,「多次元データ計量空間」に関する研究について取り組んできた.具体的に,多次元の計量空間上で対象ドキュメントデータ間の相関度を計量し,ユーザの与える視点(文脈)に応じたクラスタリングが可能となる方式の実現を行った.この方式によって,ユーザ(分析者)の視点に応じたデータ分析が可能となった.本方式は,次のステップである「次元縮退方式」に関する研究に強く関連するものである.つまり,今年度の研究は,「ドキュメントマイニングシステムにおける情報可視化に関する研究」のシステム実現に向けて大きなアドバンテージを得たと考えることができる.また,本方式の研究成果は次に述べる学会の論文誌に採録された.

 

本年度の研究成果

l         学会論文誌投稿・採録

図子 泰三,吉田 尚史,清木 康, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリング再帰的適用による意味的知識発見方式'',情報処理学会論文誌データベース(TOD13)

l         修士論文

ドキュメントデータベースを対象とした文脈理解機能を伴ったデータマイニング方式に関する研究

 

関連する研究成果

[1]       吉田 尚史,図子 泰三,清木 康,北川 高嗣, ``ドキュメントデータを対象とした意味的連想処理機構による動的クラスタリング方式 ,'' 情報処理学会研究報告, 情報処理学会データベースシステム研究会, 99-DBS-118, pp.89-96, 1999.

[2]       吉田 尚史,図子 泰三,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングおよび意味的データマイニング方式,'' 情報処理学会論文誌:データベース, Vol. 41, No. SIG 1 (TOD5), pp.127-139,2000.

[3]       図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングを用いた意味的知識発見方式,'' 情報処理学会研究報告,情報処理学会データベースシステム研究会, 2000-DBS-122, pp.331-338, 2000.

[4]       図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式,'' データベースとWeb情報システムに関する合同シンポジウム(DBWeb2000), pp.221-228, 2000.