森泰吉郎記念研究振興基金による研究助成 研究成果報告書

研究の背景

巨大なデータベースから必要な情報を抽出したいとき、情報検索の技術が利用されている。現在、キーワード型の検索エンジンが広く普及しており、検索するためのキーワードをユーザが適切に指定することができれば、効果的な絞込を行うことが可能である。

しかし一方では、キーワード型の検索エンジンの利用が難しい検索タスクも存在する。Huangらによれば、全世界の検索クエリのうち、約28%は検索クエリとなるキーワードの作成に失敗し、再作成が行われていると指摘されている[1]。このような失敗は、自身の情報欲求を明確に言語化できない場合や、検索する分野についての知識が乏しい場合に起こる。 また、知り得なかった新しい発見となる情報を求める場合には情報欲求を満たす検索結果を得ることは困難である。

このような問題意識から、キーワード検索が困難なタスクに対してデータの持つ各属性ごとに絞り込み条件をユーザに提示する「ファセット型検索エンジン」が提案されている。 ファセット型検索エンジンでは、適切なキーワードを作成することが出来ないユーザであっても、予め提示された絞り込み条件を変化させていくことによって、変化する検索結果を繰り返し得ることができる。これにより、ユーザは求める情報がどのような検索キーワードや絞り込み条件によって得られるかを理解することが出来るようになる。 情報の探索と検索を同時に行うことが出来るため、e-コマースなどの分野において実用化されている。

しかし、ファセット型検索においては絞り込み条件の組み合わせいかんによっては、検索結果が0件、あるいは非常に多くなることが多いことが後藤らによって指摘されている[2]。また、絞り込み条件の組み合わせを作成すること自体が、難しいタスクであるため、キーワード型、ファセット型を問わず、よりユーザ負荷が低く、より満足度の高い情報検索インタフェースの研究が行われている。

これらのインタフェース研究を実装する場合、それぞれ、どのようなデータ構造に適用し、どのようなインタフェースを提供するか、という点において、技術的制約が発生する。キーワード型の検索エンジンであれば、各文書からキーワードを抽出し計算しておく必要があり、ファセット型の検索エンジンは、メタデータを持たない文書には用いることが出来ず、また、適切なファセットの構築がそのままシステムの利便性に直結するが、各データで共通するファセットを定義し、構造化することは難しいことが知られている[3]。

研究の目的

本研究の目的は、検索対象となるデータベースに関する知識が乏しく、適切な検索キーワードや絞り込み条件を作成することが出来ないユーザに対して、負荷の低い情報探索インタフェースを提案することにある。ユーザに検索クエリとなるキーワードを作成することを求めず、また、検索と結果の閲覧、再検索を繰り返し、情報を渡り歩くように探索することによって、未知なる新しい発見をもたらすことを期待する。また、探索の過程で、データベースがどのような分布になっており、各属性ごとにどのような相関があるのか、ユーザに洞察を与えることで、ファセット型検索やキーワード型検索を用いて適切な検索が行えるようになることを目的とする。

研究のアプローチ

本研究では、この目的を達成するため、動的KWIC索引という手法を提案する。動的KWIC索引では、従来のキーワード型検索やファセット型検索ではなしえなかった技術的制約を解決し、汎用的な枠組みで多くの情報を渡り歩いていく体験が可能であることを示す。

成果

昨季の研究では、動的KWIC索引の実装として、特定のエントリに着目し、複数の検索システムや推薦システムの検索結果を渡り歩くシステムを構築した。

gyazo

そこで、昨季の構想を引き継ぎ、汎用的なデータセットに適用できるモデルとして、動的KWIC索引を実装し、各データの属性ごとにファセットを並べるアプローチを行った。

gyazo2

ここでは、IMDBの映画データを用い、各データの持つ属性情報ごとにファセットを生成し、1つのエントリに着目して渡り歩きを行える動的KWIC索引を実装した。

また、各ファセットの中で、そのエントリがどれほどの順位に存在するか、をチャートとしてファセットの左右に表示することで、Parallel Coordinatesのような情報視覚化が可能であることが明らかとなった。

今後は、このParallel Coordinatesのズーミフィケーションというアプローチを軸に、検索行動における再現率の向上と、網羅率の向上を目指していく。

※1: Exploratory Search: Beyond the Query-Response Paradigm Synthesis Lectures on Information Concepts, Retrieval, and Services 2009, 98 pages, Ryen W. White(Microsoft Research),Resa A. Roth

※2: The Impact of the Internet on Information Search for Automobiles Brian T. Ratchford, Myung-Soo Lee and Debabrata Talukdar Journal of Marketing Research Vol. 40, No. 2 (May, 2003), pp. 193-209

※3: DBレコードの多重ファセット情報に基づく三次元情報アクセス空間の構築 大東 誠,田中 譲 DBレコードの多重ファセット情報に基づく三次元情報アクセス空間の構築(データベース) 電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 09151915 一般社団法人電子情報通信学会