2000年度
森泰吉記念研究振興基金 修士課程研究助成金
研究成果報告書

異種統計データベース群を対象とした
意味的連結処理モデルの研究開発

政策メディア研究科 修士2年 
ノーベルコンピューティングプロジェクト所属
池田知弘(toto@mdbl.sfc.keio.ac.jp)


1.研究概要

ネットワーク上に独立して構築・管理される異種の統計データベース群を 知的に統合利用するために,統計データベースを対象とした”意味的連結処理 モデル”の提案および開発を行った.単独に構築・管理される既存のデータベー ス群を相互に連結する機構の実現により,それらの価値は飛躍的に増大する. 本モデルは,統計データの意味的連想処理方式,統計データベースの統合シス テムからなる.

本研究では,利用者の多様な選好や価値観を反映した,散在する統計デー タコンテンツの有効活用を目的としている.そのために,膨大でかつ未知なる 統計データをユーザが直感的印象に基づいて効果的に編集・統合利用するため の機能として,統計データの意味的な連想検索方式及び意味的な連想評価方式 を提案した.

これらの意味的連想処理機能を含む統計データの演算(オペレータ)機能 群を設計し,統計データベース群を対象に内在するデータコンテンツの収集、 標準化、統合化を一元的に可能とする統合システムを提案した.

そして,提案システムの設計・実装を行い,地域統計データを対象とした ”地域特性評価システム”をWWW環境において実現した.実現システムにおける 意味的連想処理機能の評価実験により,提案した意味的連想処理方式の有効性 を確認し,提案モデルの実現可能性及び実用性を明らかにした.

本研究の成果は,人々の多様な選好や価値観に応じて,ネットワーク上に 散在する統計データ・コンテンツを有効に統合利用するための一方式を提案し 実現したことである.



2.背景・目的

多様な統計データベース群が,世界中の機関により構築され広域ネットワー ク上に接続されることにより,統計データ・コンテンツのグローバルな流通が もたらされている(例: "Statistical Resources on the Web" [ミシガン大学文書 センター] ).これらのコンテンツを動的に編集・統合利用することによる, 迅速な意思決定や戦略の策定を行うことの意義は大きい.WWW上に存在する統 計データ資源を対象として,インタラクティブな分析・利用を行う試みがなさ れている[Joseph1999]が,複数資源の統合利用環 境の実現はさらに重要な課題である.

現在,移動及び携帯端末を用いた情報収集が一般的となっており,居住地 域や旅行先の選定から,行楽地におけるアトラクション施設やレストランの選 定に至るまで,あらゆる状況における迅速な意思決定が求められている.そう した環境では,選定の対象となる地域やレストランに関する各種統計情報をユー ザの目的や観点に応じて動的に収集し,評価するための仕組みの実現が重要課 題となる.

ところが,現状における統計データ利用では,データ収集や評価分析における 手間や難解さが原因となって,一般ユーザが生の統計データを利用する機会が 殆んどないという課題が指摘できる.そのため,一般ユーザは,専門機関によ る加工が施された``地域の豊かさランキング''や``お薦めレストランランキン グ''などの二次統計情報を信頼せざるを得ない状況に置かれている.ただし, このようなバイアスのかかった統計情報は,人々の選好や価値観の多様性に反 するものであり,ユーザの主体的な統計データ利用環境の整備が求められる (図1).

従って,様々な機関より提供される統計データベースを相互に連結し,内 在する統計データ・コンテンツをユーザの要求に応じて統合利用する機構の実 現が重要である.また,その機構において,膨大な数の統計データに関する専 門的知識を持たないユーザが効果的にデータの編集・統合操作を行うための機 能が求められる.


(図1 統計データ利用における現状の課題)
(図1 統計データ利用における現状の課題)




3.提案方式

本研究ではこうした要請に対して,複数の統計データベースを統合利用す るマルチデータベースシステムとして,統計データベース知的統合システムを 提案し設計と実装を行った[池田2001].また,その 内部機能に,清木らにより提案されている``意味の数学モデル[Kiyoki1998]''をベースとした,利用者の直感的印象 に基づく対話的な統計データ処理を実現する計算方式として,意味的連想検索 方式(以下,``意味検索方式'')[池田2000-2]及 び意味的連想評価方式(以下,``意味計算方式'')[池 田1999,池田2000-1]を提案し設計と実装を行っ た.


(図2 提案システムの概観)
(図2 提案システムの概観)


図2は,提案システムの概観を示したものである. 本システムは,ローカルに作成される統計データベース群の上位層に位置し, それらのメタデータを管理することにより統一的なアクセスを実現する.また, 特定のデータベースシステムにおける,統計データ表現形式やデータ演算系に 依存することのない,統一的なデータ形式及び基本演算子(以下,``プリミティ ブ'')を設計している.これより,異なるデータベース群に内在する統計デー タを統一的に編集・統合することが可能となる.プリミティブは,目的別に大 きく,A)データ収集用プリミティブ,B)データ標準化用プリミティブ,C)デー タ評価用プリミティブに分けられる.現在のところ設計しているプリミティブ 群はそれぞれ,A:アドレス指定直接検索,キーワード照合検索,意味検索,B: 指数変換,指標化,C:加重評価,価値関数,意味計算,である.ユーザは,こ れらプリミティブを組み合わせて用いることにより,選好や価値観に応じた統 計データの編集・統合を行うことができる.

意味検索方式及び意味計算方式は,ユーザの直感的印象に基づいた統計データ の検索及び総合評価を実現する計算方式である.

本研究における意味検索方式は,清木らによって提案・実現されている画 像データを対象とした意味的連想検索方式[Kiyoki1998]を,統計データを対象として応用させた ものである.利用者は,膨大かつ未知なる統計データから,例えば,キーワー ド:収入(income),文脈語:職業(job),賃金(wages)のようなキーワードと文 脈語のセットからなる問合せを発行し,それに応じた検索結果として,[賃金・ 俸給(wages salary)],[男女賃金格差(wages gap male female)],[実質賃金 (enterprise wages laborer)]などの統計データを収集することができる(図3).

意味検索方式では,ベクトル空間モデルにおける独自の部分空間法である,`` 意味の数学モデル''をベースとしている.意味の数学モデルでは,問合わせの 文脈語列から問合せベクトルを形成し,そのベクトルに関連のある軸からなる 部分空間を意味空間から切り出すことを特徴としている.切り出された部分空 間上へ検索対象データ及び問合せキーワードデータのベクトルを写像し,それ ぞれの意味的な相関を計量する.これにより,文脈に応じた意味的連想による データ検索を実現する.


(図3 意味検索方式の特徴)
(図3 意味検索方式の特徴)


本研究では,連続値を含むメタデータをベクトル化するモデルの定義により, 従来の意味検索方式では実現されていなかった,統計データを文脈に応じて意 味的に総合評価する意味計算方式の提案を行った. 利用者は,統計データセット(例えば,先程検索された統計データセット)に 対して,文脈語:豊かな(rich)や,格差(gap)-平等(-equality)といった文脈 語による問合せを発行し,それに応じた多角的な評価ランキングを獲得するこ とができる(図4).


(図4 意味計算方式の特徴)
(図4 意味計算方式の特徴)




4.システム実装および実験

システムをWWW環境で実装し,総計445の地域統計データを格納した 12の統計データベース対象とした``地域特性評価システム''を実現した.そ のユーザインタフェースは,図5に示す通りである. 実現システムを用いた統計データの編集・統合を通じてユーザは,地域(47 都道府県)の特徴を多角的に把握し,居住地の選定などに活かすことができる.


(図5 地域特性評価システムのユーザインタフェース)
(図5 地域特性評価システムのユーザインタフェース)


意味検索方式の有効性評価実験を行った.そこでは,キーワードのパター ン照合検索方式との検索精度の比較を,正解データに対する適合率及び再現率 により測定した.図6に示している4つのケースにおいて,テーマに即したキー ワードを用いたパターン照合検索と意味検索を行った.そこでは,予め設定し た正解データに対する検索精度を適合性及び再現性により定量的に評価した.

いずれのケースにおいても,意味検索が高い再現性の中で,高い適合性を 実現していることを確認できる.なお,パターン照合検索方式では,キーワー ドのOR検索を採用している.


(図6 意味検索の実験評価)
(図6 意味検索の実験評価)


意味計算方式の有効性評価実験を行った.そこでは,統計データの分析・ 評価における文脈に対応した特徴抽出が適切にできていることを評価した(統 計データの総合"評価"とその精度の"評価"では,意味が異なることに注意). 3つのケースにおいて,テーマに即した統計データ群を対象とした総合評価を, 地域ランキングとして加重和方式(重みはすべて1)により求め、これを正解 ランキングとする.それに対し,テーマに即さない統計データを意図的に混在 させた統計データ群を対象として,テーマに関連ある文脈を問合せとする意味 計算による総合評価を行いランキングを求める.この両者のランキングが類似 しているほど,文脈に応じて関連ある特徴を抽出したデータ評価ができている ことが示される.この精度評価をスピアマンの順位相関係数により定量的に求 めた.

いずれのケースにおいても,テーマに関連のある語を文脈として与えるこ とによって,適切な特徴抽出を伴った統計データの総合評価が実現されている ことを確認できる.なお,テーマに関連のない語を文脈として与えた場合にお いては,適切な総合評価ができていないことも確かめた.


(図7 意味計算の実験評価)
(図7 意味計算の実験評価)


以上より,意味検索及び意味計算方式における,文脈に応じた統計データ 処理の有効性を確認した.また,実験を通じて実現システムの効果的な稼働性 を確認した.これより,提案モデルの実現可能性及び実用性を明らかにした.



5.関連研究

本研究は,マルチデータベースシステムの研究における,意味的関連性に 考慮した統合的データ検索・データ結合処理への取り組みとして捉えられる. マルチデータベースシステム及び異種情報源統合技術には,様々な形態のもの が取り組まれ提案されている(例:"異種のデータモデル・構造・データ操作 言語間の相互運用,空間・時間的属性データの連結,移動性エージェントなど ")が,ここではデータの意味的関連性に着目したデータベースの統合利用技 術についてのみ取り上げる.

●環境情報の意味的連想検索を実現するマルチデータベースシステム[Kiyoki2000]
意味検索における先行研究であるが,統計データを対象とした編集・統合機能 は実現されていない.従来における意味検索方式の研究では,画像データ,文 書データ,音楽データ,動画データへの取り組みがなされている.
●オントロジーに基づく情報収集・分類・統合化機構[ 岩爪1997]
オントロジーは,データ(特に語彙)間の意味的関連性を樹系図構造で明示的 に記述した知識体系である.この機構では,問合せの語句に応じて,ノード間 の重みを動的に変えることにより,データ間の意味的関連性を動的に求めてい る.ただし,この方式では,意味的構造が静的に定義されるために語彙間の同 義性や多義性を効果的に扱うことはできない.
●連邦データベースシステムにおけるデータ統合方式[池田哲1999]
連邦データベースは,マルチデータベースの一形態であり,複数データベース 間にまたがるスキーマ(連邦スキーマ)を明示的に構成し,スキーマ内のデー タを統合的に扱う.この方式では,スキーマのデータ属性(主に統計データ) を組み合わせた連邦スキーマ(ユーザ・ビューとなる)構築に際して,データ 属性間の意味的関係性に配慮した意味の特定化を行っている.これは,データ の利用だけでなく管理も含めた相互運用を想定している.ただし,静的なデー タ間関係性記述を前提としているため,データベースの増大に伴うオーバヘッ ドを無視できず,(膨大な)データ利用面での有意性は低いといえる.


6.まとめ

本研究では,統計データベースの知的統合を実現するマルチデータベースシス テムの提案と実現として以下の項目を行った. 今後の課題として,以下の項目があげられる.

参考文献

[Joseph1999]
Joseph M. H., Ron A., Andy C., Christian H.,Chris O., Vijayshankar R., Tali R., Petter J. Haas: Interactive Data Analysis: The Control Project, IEEE Computer, pp.51--59(1999).

[池田2001]
池田 知弘, 藤原 敬史, 清木 康, "統計的データの主観的な編集・統合のため のマルチデータベースシステム実現方式", 電子情報通信学会データ工学ワー クショップ 2001(投稿中).

[Kiyoki1998]
Kiyoki, Y., Kitagawa, T. and Hayama, T.: A metadatabase system for semantic image search by a mathematical model of meaning, Multimedia Data Management -- using metadata to integrate and apply digital media --, McGrawHill, A. Sheth and W. Klas(editors), Chapter 7, 1998.

[池田2000-2]
池田 知弘, 清木 康, "マルチデータベース環境における統計データの意味的 統合支援", 情報処理学会研究会報告DBS-122, pp.237--244(2000).

[池田1999]
池田 知弘, 清木 康, "連続値を含むメタデータを対象とした意味的連想検索 方式", 情報処理学会研究会報告DBS-119-50, pp.297--302(1999).

[池田2000-1]
池田 知弘, 清木 康, "連続値データ群の統合的評価を文脈に応じて実現する 意味的連想検索方式", 情報処理学会論文誌データベース, Vol.41, No.SIG1(TOD5), pp.76--86(2000).

[Kiyoki2000]
Kiyoki, Y. and Kitagawa, T.: Application of a Semantic Associative Search Method to Multidatabase for Environmental Information, {\it Information Modelling and Knowledge Bases} XI E. Kawaguchi et al. (Eds.), pp.74-84, IOS Press(2000).

[岩爪1997]
岩爪 道昭, 白神 謙吾, 畑谷 和右, 武田 英明, 西田 豊明, "オントロジーに基づく広域ネットワークからの情報収集・分類・統合化", 情報処理学会論文誌, Vol.38, No.3, pp.606--615(1997).

[池田哲1999]
池田 哲夫, 鈴木 源吾, 町原 宏毅, 安田 浩: 連邦データベースシステムにお けるスキーマ構築の一方式, 情報処理学会論文誌, Vol.40,No.SIG8(TOD4), p.29--40 (1999).

[池田2001-2]
池田 知弘: 統計的データベースの知的統合を実現するマルチデータベースシステムの研究, 慶應義塾大学大学院 政策・メディア研究科修士論文(2001).




20. Feb, 2001.
Tomohiro Ikeda
(toto@mdbl.sfc.keio.ac.jp)