2004年度 森泰吉記念研究振興基金 報告書

事象データ間の因果関連性計量機能を伴ったベクトル空間検索方式

 

政策・メディア研究科後期博士課程3年

図子泰三 / 80266169 / tz@sfc.keio.ac.jp

 

 

1.      研究の目的

近年,あらゆる組織内において,大量の文書データが生成され,それらがデータベースに格納されている.また,それらの文書データを活用するために,組織ごとに検索エンジンが構築されている.データベースや情報検索の研究分野では,これらの文書データ群を対象とした検索方式として,ベクトル空間モデルによる検索方式が有効であると確認されている.

従来のベクトル空間モデルでは,対象とするドキュメントデータ群の中に出現する各単語をベクトルデータとして表現し,単語間の意味的な同義性や類似性が計算可能な計量系を提供している.しかし,ある検索対象領域において,検索者が検索語として与える単語を事象(event)と捉えることが可能な場合,事象間の類似性を計量するといった検索要求だけでは十分ではなく,事象間の時間的因果関係が計量可能な系が必要となる.

本研究では,検索対象領域における事象間の時間的因果関係が計量可能なベクトル空間検索方式を提案する.慶應義塾大学清木研究室では,意味の数学モデルによる意味的連想検索方式を提案している.意味の数学モデルでは,検索対象領域における基本単語群を特定し,各単語の定義をベクトルデータとして表現することによって,単語間の意味的な類似性を検索者の文脈に応じて計量することが可能な意味空間を生成する.本研究の提案方式では,検索対象領域において起こり得る事象群を特定し,各事象間の時間的因果関係に応じてベクトルデータを作成することによって,事象間の時間的因果関係が計量可能な意味空間を生成することが可能となる.

 

2.      提案方式

本研究で提案する事象データ群の時間的因果関係を扱う意味的連想検索方式について解説する.すなわち,意味の数学モデルの中で使用するベクトルデータに関して,事象データ間の時間的因果関係に応じたベクトルデータの作成方法について述べる.ここでは,図1に示すような擬似的な事象データ(事象A〜F)を使用して解説する.図1における矢印は時間的因果関係を示している.例えば,「事象Bの前には事象Aが発生する(事Aは事象Bが起こる原因となっている)」,「事象Dが起こると,それに伴って事象Eが起こる(事象Dの結果,事象Eが起こる)」ということを示している.

 

2.1 空間生成のためのメタデータ

空間生成のためのメタデータの作成方法について解説する.提案方式では,基本データ,特徴,両方ともに同様の事象データ群を設定するためm×mの正方行列を形成する.図1の例を用いると,事象A〜Fについて, 6×6の行列を作成することになる.それぞれの事象ベクトルの要素については,その事象自身と,その事象と直接関係のある事象に「1」を設定し,それ以外の事象には「0」を設定する.例えば,事象Bのベクトルを作成する場合,事象B自身と,事象Bと直接関係のある事象Aと事象Dに「1」を設定し,それ以外の事象には「0」を設定する.この作業を全事象ベクトルに適用すると図2のようになる.

 

2.2 キーワードのためのメタデータ

キーワードのためのメタデータ,すなわち,検索者が検索語として与える事象データのベクトル表現の方法について解説する.キーワードのためのメタデータも空間生成用メタデータと同様に,m×mの正方行列となる.次に示すように,検索者の検索目的に応じて,異なる二種類の行列データを用意する.同様に,図1の例を使用して解説する.

 

2.2.1検索語として与えられる事象の原因となる事象を検索する場合

事象ベクトルについて,その事象自身と,その事象の直接の原因となっている事象に「1」を設定し,それ以外に「0」を設定する.図1の事象Dを例とすると,事象D自身と,事象Dの直接の原因となっている事象B,Cに「1」を設定し,その他の事象には「0」を設定する.同様の作業を全事象について行うと,図3のようになる.この行列をMcとする.

2.2.2検索語として与えられる事象によって引き起こる事象を検索する場合

事象ベクトルについて,その事象自身と,その事象が直接の原因となっている事象に「1」を設定し,それ以外に「0」を設定する.図1の事象Dを例とすると,事象D自身と,事象Dが直接の原因となっている事象E,Fに「1」を設定し,その他の事象には「0」を設定する.同様の作業を全事象について行うと,図4のようになる.この行列をMrとする.

 

 

2.3検索対象文書のためのメタデータ

検索対象文書のためのメタデータの設定方法について解説する.ここでは,一つの文書データに対して,複数個の単語(事象)がメタデータとして付与されている.文書データに付与されているそれぞれの単語はベクトルデータとして表現されており,一つの文書データは,複数のベクトルデータの合成ベクトルとして表現される.キーワードのためのメタデータと同様に,検索者の検索目的に応じて,異なる二種類の行列データを用意する.図1の例を使用して,一つの文書データに事象B,Dがメタデータとして付与されている場合のベクトルデータの作成される過程を説明する.

 

2.3.1検索語として与えられる事象の原因となる事象を検索する場合

事象ベクトルとして,図4の行列に示されている各ベクトル,すなわち,Mrを使用する.文書データに付与されている事象(B,D)ベクトルの合成ベクトルをこの文書の文書ベクトルとする.つまり,図5の上部のようになる.

 

2.3.2検索語として与えられる事象によって引き起こる事象を検索する場合

事象ベクトルとして,図3の行列に示されている各ベクトル,すなわち,Mcを使用する.同様の作業を行うことによって,図5の下部のようになる.

 

3.      研究成果

本研究の研究成果として,今年度は,2件の論文が査読付き論文誌に採録された.また,2件の論文が国際学会に採録され,発表を行なった.さらに,修士課程からの5年間の研究を博士論文(タイトル:文書ベクトルデータ群を対象とした文脈依存性計量機能および因果関連性計量機能を有する情報獲得方式に関する研究)としてまとめた.

 

査読付き論文誌

l         図子 泰三,清木 康,鷹野 孝典,波内 みさ,但田 育直:事象データ間の因果関連性計量機能をともなったベクトル空間検索方式,情報処理学会論文誌:データベース,Vol.45No.SIG 7(TOD22)pp.124-136, 2004.

l         鷹野 孝典,図子 泰三,清木 康:事象間の因果関係を扱う動的な文脈解釈機能を有する意味的連想検索方式の実現,情報処理学会論文誌:データベース,Vol.46, (TOD25), 2005 (accepted, 15 pages).

 

国際学会発表

l         Zushi, T., Takano, K. and Kiyoki, Y.: A Causality Computation Method using a Vector Space Model and its Application to Aerospace Engineering, International Conference on Advances in Intelligent Systems - Theory and Applications (AISTA2004), 2004 (CD-ROM, 5 pages).

l         Zushi, T., Takano, K. and Kiyoki, Y.: A Vector Space Retrieval Method with Causal Relationship Computation Functions for Event Data, IEEE International Symposium on Applications and the Internet (SAINT 2005) - International Workshop on Cyberspace Technologies and Societies (IWCTS2005), pp.430-433, 2005.

 

 

4.      関連する研究成果

1.         図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングを用いた意味的知識発見方式,'' 情報処理学会研究報告,情報処理学会データベースシステム研究会, 2000-DBS-122, pp.331-338, 2000.

2.         図子 泰三,吉田 尚史,清木 康,北川 高嗣, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式,'' データベースとWeb情報システムに関する合同シンポジウム(DBWeb2000), pp.221-228, 2000.

3.         図子 泰三,吉田 尚史,清木 康, ``ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式,'' 情報処理学会論文誌:データベース, Vol. 43, No. SIG 2(TOD13), pp.216-230, 2002.

4.         図子 泰三, 鷹野 孝典, 清木 康, ``事象データ群の時間的因果関係を扱う意味的連想検索方式,'' 情報処理学会研究報告,情報処理学会データベースシステム研究会, 2003-DBS-130, pp.71-77, 2003.

5.         鷹野 孝典, 図子 泰三, 清木 康, 但田 育直, 波内 みさ, ``時間的因果関係を扱う動的な文脈解釈機能を伴った意味的連想検索方式の実現,'' 情報処理学会研究報告,情報処理学会データベースシステム研究会, 2003-DBS-131, pp.483-489, 2003.