MORI-GRANT 2000 report

2000年度
森泰吉記念研究振興基金修士課程研究助成金
研究成果報告書

異種統計データベース群を対象とした
意味的連結処理モデルの研究開発

政策メディア研究科　修士2年　
ノーベルコンピューティングプロジェクト所属
池田知弘(toto@mdbl.sfc.keio.ac.jp)

1．研究概要

ネットワーク上に独立して構築・管理される異種の統計データベース群を知的に統合利用するために，統計データベースを対象とした”意味的連結処理モデル”の提案および開発を行った．単独に構築・管理される既存のデータベース群を相互に連結する機構の実現により，それらの価値は飛躍的に増大する．本モデルは，統計データの意味的連想処理方式，統計データベースの統合システムからなる．

本研究では，利用者の多様な選好や価値観を反映した，散在する統計データコンテンツの有効活用を目的としている．そのために，膨大でかつ未知なる統計データをユーザが直感的印象に基づいて効果的に編集・統合利用するための機能として，統計データの意味的な連想検索方式及び意味的な連想評価方式を提案した．

これらの意味的連想処理機能を含む統計データの演算（オペレータ）機能群を設計し，統計データベース群を対象に内在するデータコンテンツの収集、標準化、統合化を一元的に可能とする統合システムを提案した．

そして，提案システムの設計・実装を行い，地域統計データを対象とした ”地域特性評価システム”をＷＷＷ環境において実現した．実現システムにおける意味的連想処理機能の評価実験により，提案した意味的連想処理方式の有効性を確認し，提案モデルの実現可能性及び実用性を明らかにした．

本研究の成果は，人々の多様な選好や価値観に応じて，ネットワーク上に散在する統計データ・コンテンツを有効に統合利用するための一方式を提案し実現したことである．

2．背景・目的

多様な統計データベース群が，世界中の機関により構築され広域ネットワーク上に接続されることにより，統計データ・コンテンツのグローバルな流通がもたらされている（例： "Statistical Resources on the Web" [ミシガン大学文書センター] ）．これらのコンテンツを動的に編集・統合利用することによる，迅速な意思決定や戦略の策定を行うことの意義は大きい．WWW上に存在する統計データ資源を対象として，インタラクティブな分析・利用を行う試みがなされている[Joseph1999]が，複数資源の統合利用環境の実現はさらに重要な課題である．

現在，移動及び携帯端末を用いた情報収集が一般的となっており，居住地域や旅行先の選定から，行楽地におけるアトラクション施設やレストランの選定に至るまで，あらゆる状況における迅速な意思決定が求められている．そうした環境では，選定の対象となる地域やレストランに関する各種統計情報をユーザの目的や観点に応じて動的に収集し，評価するための仕組みの実現が重要課題となる．

ところが，現状における統計データ利用では，データ収集や評価分析における手間や難解さが原因となって，一般ユーザが生の統計データを利用する機会が殆んどないという課題が指摘できる．そのため，一般ユーザは，専門機関による加工が施された``地域の豊かさランキング''や``お薦めレストランランキング''などの二次統計情報を信頼せざるを得ない状況に置かれている．ただし，このようなバイアスのかかった統計情報は，人々の選好や価値観の多様性に反するものであり，ユーザの主体的な統計データ利用環境の整備が求められる（図１）．

従って，様々な機関より提供される統計データベースを相互に連結し，内在する統計データ・コンテンツをユーザの要求に応じて統合利用する機構の実現が重要である．また，その機構において，膨大な数の統計データに関する専門的知識を持たないユーザが効果的にデータの編集・統合操作を行うための機能が求められる．

（図１統計データ利用における現状の課題）

3．提案方式

本研究ではこうした要請に対して，複数の統計データベースを統合利用するマルチデータベースシステムとして，統計データベース知的統合システムを提案し設計と実装を行った[池田2001]．また，その内部機能に，清木らにより提案されている``意味の数学モデル[Kiyoki1998]''をベースとした，利用者の直感的印象に基づく対話的な統計データ処理を実現する計算方式として，意味的連想検索方式（以下，``意味検索方式''）[池田2000-2]及び意味的連想評価方式（以下，``意味計算方式''）[池田1999,池田2000-1]を提案し設計と実装を行った．

（図２提案システムの概観）

図２は，提案システムの概観を示したものである．本システムは，ローカルに作成される統計データベース群の上位層に位置し，それらのメタデータを管理することにより統一的なアクセスを実現する．また，特定のデータベースシステムにおける，統計データ表現形式やデータ演算系に依存することのない，統一的なデータ形式及び基本演算子（以下，``プリミティブ''）を設計している．これより，異なるデータベース群に内在する統計データを統一的に編集・統合することが可能となる．プリミティブは，目的別に大きく，A)データ収集用プリミティブ，B)データ標準化用プリミティブ，C)データ評価用プリミティブに分けられる．現在のところ設計しているプリミティブ群はそれぞれ，A:アドレス指定直接検索，キーワード照合検索，意味検索，B: 指数変換，指標化，C:加重評価，価値関数，意味計算，である．ユーザは，これらプリミティブを組み合わせて用いることにより，選好や価値観に応じた統計データの編集・統合を行うことができる．

意味検索方式及び意味計算方式は，ユーザの直感的印象に基づいた統計データの検索及び総合評価を実現する計算方式である．

本研究における意味検索方式は，清木らによって提案・実現されている画像データを対象とした意味的連想検索方式[Kiyoki1998]を，統計データを対象として応用させたものである．利用者は，膨大かつ未知なる統計データから，例えば，キーワード：収入(income)，文脈語：職業(job)，賃金(wages)のようなキーワードと文脈語のセットからなる問合せを発行し，それに応じた検索結果として，[賃金・俸給(wages salary)]，[男女賃金格差(wages gap male female)]，[実質賃金 (enterprise wages laborer)]などの統計データを収集することができる(図３)．

意味検索方式では，ベクトル空間モデルにおける独自の部分空間法である，`` 意味の数学モデル''をベースとしている．意味の数学モデルでは，問合わせの文脈語列から問合せベクトルを形成し，そのベクトルに関連のある軸からなる部分空間を意味空間から切り出すことを特徴としている．切り出された部分空間上へ検索対象データ及び問合せキーワードデータのベクトルを写像し，それぞれの意味的な相関を計量する．これにより，文脈に応じた意味的連想によるデータ検索を実現する．

（図３意味検索方式の特徴）

本研究では，連続値を含むメタデータをベクトル化するモデルの定義により，従来の意味検索方式では実現されていなかった，統計データを文脈に応じて意味的に総合評価する意味計算方式の提案を行った．利用者は，統計データセット（例えば，先程検索された統計データセット）に対して，文脈語：豊かな(rich)や，格差(gap)-平等(-equality)といった文脈語による問合せを発行し，それに応じた多角的な評価ランキングを獲得することができる(図４)．

（図４意味計算方式の特徴）

4．システム実装および実験

システムをＷＷＷ環境で実装し，総計４４５の地域統計データを格納した１２の統計データベース対象とした``地域特性評価システム''を実現した．そのユーザインタフェースは，図５に示す通りである．実現システムを用いた統計データの編集・統合を通じてユーザは，地域(４７都道府県)の特徴を多角的に把握し，居住地の選定などに活かすことができる．

（図５地域特性評価システムのユーザインタフェース）

意味検索方式の有効性評価実験を行った．そこでは，キーワードのパターン照合検索方式との検索精度の比較を，正解データに対する適合率及び再現率により測定した．図６に示している４つのケースにおいて，テーマに即したキーワードを用いたパターン照合検索と意味検索を行った．そこでは，予め設定した正解データに対する検索精度を適合性及び再現性により定量的に評価した．

いずれのケースにおいても，意味検索が高い再現性の中で，高い適合性を実現していることを確認できる．なお，パターン照合検索方式では，キーワードのOR検索を採用している．

（図６意味検索の実験評価）

意味計算方式の有効性評価実験を行った．そこでは，統計データの分析・評価における文脈に対応した特徴抽出が適切にできていることを評価した（統計データの総合"評価"とその精度の"評価"では，意味が異なることに注意）．３つのケースにおいて，テーマに即した統計データ群を対象とした総合評価を，地域ランキングとして加重和方式（重みはすべて１）により求め、これを正解ランキングとする．それに対し，テーマに即さない統計データを意図的に混在させた統計データ群を対象として，テーマに関連ある文脈を問合せとする意味計算による総合評価を行いランキングを求める．この両者のランキングが類似しているほど，文脈に応じて関連ある特徴を抽出したデータ評価ができていることが示される．この精度評価をスピアマンの順位相関係数により定量的に求めた．

いずれのケースにおいても，テーマに関連のある語を文脈として与えることによって，適切な特徴抽出を伴った統計データの総合評価が実現されていることを確認できる．なお，テーマに関連のない語を文脈として与えた場合においては，適切な総合評価ができていないことも確かめた．

以上より，意味検索及び意味計算方式における，文脈に応じた統計データ処理の有効性を確認した．また，実験を通じて実現システムの効果的な稼働性を確認した．これより，提案モデルの実現可能性及び実用性を明らかにした．

5．関連研究

本研究は，マルチデータベースシステムの研究における，意味的関連性に考慮した統合的データ検索・データ結合処理への取り組みとして捉えられる．マルチデータベースシステム及び異種情報源統合技術には，様々な形態のものが取り組まれ提案されている（例："異種のデータモデル・構造・データ操作言語間の相互運用，空間・時間的属性データの連結，移動性エージェントなど "）が，ここではデータの意味的関連性に着目したデータベースの統合利用技術についてのみ取り上げる．

●環境情報の意味的連想検索を実現するマルチデータベースシステム[Kiyoki2000]

意味検索における先行研究であるが，統計データを対象とした編集・統合機能は実現されていない．従来における意味検索方式の研究では，画像データ，文書データ，音楽データ，動画データへの取り組みがなされている．

●オントロジーに基づく情報収集・分類・統合化機構[ 岩爪1997]

オントロジーは，データ（特に語彙）間の意味的関連性を樹系図構造で明示的に記述した知識体系である．この機構では，問合せの語句に応じて，ノード間の重みを動的に変えることにより，データ間の意味的関連性を動的に求めている．ただし，この方式では，意味的構造が静的に定義されるために語彙間の同義性や多義性を効果的に扱うことはできない．

●連邦データベースシステムにおけるデータ統合方式[池田哲1999]

連邦データベースは，マルチデータベースの一形態であり，複数データベース間にまたがるスキーマ（連邦スキーマ）を明示的に構成し，スキーマ内のデータを統合的に扱う．この方式では，スキーマのデータ属性（主に統計データ）を組み合わせた連邦スキーマ（ユーザ・ビューとなる）構築に際して，データ属性間の意味的関係性に配慮した意味の特定化を行っている．これは，データの利用だけでなく管理も含めた相互運用を想定している．ただし，静的なデータ間関係性記述を前提としているため，データベースの増大に伴うオーバヘッドを無視できず，(膨大な)データ利用面での有意性は低いといえる．

6．まとめ

本研究では，統計データベースの知的統合を実現するマルチデータベースシステムの提案と実現として以下の項目を行った．

統計データの意味検索・意味計算方式の提案
統計データベースのマルチデータベースシステムの提案
地域特性評価システムの実装と実現
実験と有効性評価

今後の課題として，以下の項目があげられる．

データマイニング手法との連携
メタデータ生成の定型化
- 統計データの半構造表現及びXMLへの対応
各種メディアへの適用
- デジタルシティ
- モバイルコンピューティング

参考文献

[Joseph1999]
Joseph M. H., Ron A., Andy C., Christian H.,Chris O., Vijayshankar R., Tali R., Petter J. Haas: Interactive Data Analysis: The Control Project, IEEE Computer, pp.51--59(1999).

[池田2001]
池田知弘, 藤原敬史, 清木康, "統計的データの主観的な編集・統合のためのマルチデータベースシステム実現方式", 電子情報通信学会データ工学ワークショップ 2001(投稿中).

[Kiyoki1998]
Kiyoki, Y., Kitagawa, T. and Hayama, T.: A metadatabase system for semantic image search by a mathematical model of meaning, Multimedia Data Management -- using metadata to integrate and apply digital media --, McGrawHill, A. Sheth and W. Klas(editors), Chapter 7, 1998.

[池田2000-2]
池田知弘, 清木康, "マルチデータベース環境における統計データの意味的統合支援", 情報処理学会研究会報告DBS-122, pp.237--244(2000).

[池田1999]
池田知弘, 清木康, "連続値を含むメタデータを対象とした意味的連想検索方式", 情報処理学会研究会報告DBS-119-50, pp.297--302(1999).

[池田2000-1]
池田知弘, 清木康, "連続値データ群の統合的評価を文脈に応じて実現する意味的連想検索方式", 情報処理学会論文誌データベース, Vol.41, No.SIG1(TOD5), pp.76--86(2000).

[Kiyoki2000]
Kiyoki, Y. and Kitagawa, T.: Application of a Semantic Associative Search Method to Multidatabase for Environmental Information, {\it Information Modelling and Knowledge Bases} XI E. Kawaguchi et al. (Eds.), pp.74-84, IOS Press(2000).

[岩爪1997]
岩爪道昭, 白神謙吾, 畑谷和右, 武田英明, 西田豊明, "オントロジーに基づく広域ネットワークからの情報収集・分類・統合化", 情報処理学会論文誌, Vol.38, No.3, pp.606--615(1997).

[池田哲1999]
池田哲夫, 鈴木源吾, 町原宏毅, 安田浩: 連邦データベースシステムにおけるスキーマ構築の一方式, 情報処理学会論文誌, Vol.40,No.SIG8(TOD4), p.29--40 (1999).

[池田2001-2]
池田知弘: 統計的データベースの知的統合を実現するマルチデータベースシステムの研究, 慶應義塾大学大学院政策・メディア研究科修士論文(2001).

20. Feb, 2001.
Tomohiro Ikeda
(toto@mdbl.sfc.keio.ac.jp)

2000年度森泰吉記念研究振興基金 修士課程研究助成金 研究成果報告書

異種統計データベース群を対象とした意味的連結処理モデルの研究開発