2004年度 森基金成果報告書
「Web上のデータを用いたキーワード間の関係可視化システム」
政策・メディア研究科 修士1年 中村勇介


1.概要
現在、Webには膨大な量の情報が存在しており、それらを有効に扱うことができれば、
それより得られる情報は非常に意義のあるものとなる。そこで、今回はその最初の段階として、
すでに固定化されたデータとして存在している、Web上の研究者データを用いることで、
データ間の関係を可視化し、それより得られる情報について考察した。

2.KeyGraph
KeyGraphとは、文書中に出現する単語の出現頻度と共起関係からグラフを作成し、
そのグラフより文書の主張点を把握し、キーワードを抽出する手法である。
このアルゴリズムは、基本的に単語の意味的な情報を必要としないため、
知識辞書の構築などの余分なオーバーヘッドがなく、キーワードを抽出できるという
特徴を持っている。KeyGraphによるキーワード抽出の基本的な考え方をまとまめると
以下のようになる。

・文書中で繰り返し出現する頻度の高い単語は、その文書が書かれる上で前提とされる
 文書全体の内容展開の基本となる概念、すなあち文書の「土台」となることが多い。
・文書中では、Iの土台に基づいて、文書に筋道が与えられる。
 この筋道に支えられているのが、文書中で筆者が最も伝えたい主張となる。
 この主張こそが文書のキーワードである。

3.データベース
Web上のデータとして、約200,000名の研究者の情報を提供しているサイトに登録されている
研究者のデータを用いた。各研究者情報として、研究者の氏名、生年月日、
文部科学省科学研究費研究者番号、所属機関・部署・職名・職歴、
出身大学院・学校・専攻・取得学位、研究キーワード、現在の研究課題、
研究経歴、所属学会、研究業績などの情報が取得可能である。

4.キーワード間の関係の可視化
KeyGraphは、もともと自然言語文書を対象にした重要語抽出法である。
一般的なバスケットデータにも適用することができ、販売データ、
地震発生の時系列データ、Web ページのリンクの共起関係のデータなど、
さまざまなデータに用いられている。今回は、それを研究者の研究キーワード間の
関係を可視化するのに用いる。今回は、抽出した研究者データから、
「現在の研究課題」のうち、1.研究課題を文で示させたものを自立語のみ抽出したもの、
2.研究課題における研究キーワードの2つを組み合わせたものである。
また、研究者データとしては、登録されている研究者のうち、「自然言語処理」を
研究キーワードとしてもつ研究者60名のデータを用いた。次に、研究キーワード間の
関係の可視化の例を示す。一人の研究者を1つのバスケットと見なし、その中身の
研究キーワードとして用いた属性は、それらを基に、KeyGraphによって出力された
可視化イメージが、以下である。



5. 成果と今後の課題
図より、「自然」、「言語」、「処理」、「研究」などの言葉が、土台をなしていることが
分かる。今回、研究課題を文で示させたものを形態素解析することによって、自立語のみ
抽出したものを関係の可視化に用いた。そのため、本来は複合名詞であるべきものも形態素
ごとに区切られて解析されてしまっているが、土台として結びついているものは、
そのような複合名詞である可能性が高いことが、図より読み取れる。
KeyGraphによって、研究キーワード間の関係を可視化することはできるが、それらの
結びつきにおいて、アルゴリズム上、距離の概念がない。よって、研究キーワード同士の
関係を知ることはできても、関係同士を比較することはできない。そこで、頻出単語を
抽出する際に、上位の頻出語の順位の情報を保存し、それを関係の距離に置き換えて
比較することによって、研究キーワード間の距離も伴った可視化が可能になるのではないかと
考える。
今回はWeb上に存在する情報のうち、研究者データベースという固定化されたデータを用いた。
これには項目の未記入などの問題もあるが、データが固定化されているため、解析すること
自体は比較的容易である。今後は、Web上の掲示板やメーリングリストなどといった
インタラクティブで生きた情報を扱い、関係を解析することで、新たな可能性を模索してみたいと考えている。

【参考文献】
松尾 豊, 石塚 満:語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム,
人工知能学会誌, Vol.17, No.3, pp.213-227, 2002.

大澤幸生, ネルスE.ベンソン, 谷内田正彦:KeyGraph:語の共起グラフの分割・統合によるキーワード抽出,
電気情報通信学会論文誌, D-T, Vol.J82-D-TNo.2, pp.391-400, 1999.