2008年度森泰吉郎記念研究振興資金
研究者育成費 研究成果報告書

氏名:堤田 恭太
所属:慶應義塾大学大学院 政策・メディア研究科
修士課程2年 石崎俊研究室所属

E-mail: kfta [at] sfc.keio.ac.jp

 

森泰吉郎記念研究振興基金

·           研究課題:
連想概念辞書とコーパスを組み合わせる語義の曖昧性解消

·           決定額(円):150,000

研究の目的と概要


語義の曖昧性解消とは,解釈に曖昧性を持つ語に対して文脈上での正しい意味を選択する課題であり,機械翻訳や情報検索など多くの自然言語処理システムの性能改善に寄与する.曖昧性の解消には,共起語などの文脈的特徴を用い,機械学習手法によって語義を選択する研究がよく行われている.しかし,十分に有効な文脈的特徴を得られない場合に精度が低くなることや,学習に用いたコーパスに適合しすぎたために,学習時と異なる種類のコーパスでの精度が低くなってしまうといった問題がある.そのような場合でも,関連語を網羅的かつ効果的に増加することで,精度の改善が期待できる.そこで本研究は,人がもつ単語間の連想関係を実験によって定量的にデータ化した連想概念辞書とコーパスを組み合わせて用いる曖昧性解消システムを提案する.まず,連想概念辞書を用いて,多義語が分類されるべき文脈ごとにその関連語を収集した.次に,収集した関連語を用いてコーパスからそれらの共起語を収集し,拡張された文脈的特徴情報としてシステムに統合した.最後に,構築した曖昧性解消システムの評価実験を行い,先行研究と比べて提案手法の有効性を示した.また,構築したシステムの曖昧性解消の精度評価実験を学習時と異なる種類のコーパスで行うことにより,提案するシステムの有効性と汎用性を検証した.

活動

·           研究プロジェクト発表

Ø        論文調査発表

·           語義曖昧性解消に関する研究についての調査

·           連想概念辞書を用いた研究と概念辞書の構築に関する調査

Ø        研究進捗発表

·           修士論文研究計画と文脈つき連想実験について

·           連想実験システムの準備と実験の実施

·           修士論文と今後の計画について

Ø        修士論文研究進捗発表 他

·           修士論文の執筆

Ø        【邦題】文脈情報を用いる語の曖昧性解消システムの研究

·           ―連想概念辞書とコーパスを組み合わせる手法の提案―

Ø        【英題】Study of Word Sense Disambiguation System by Using Contextual Features

·           - Approach by Combining Associative Concept Dictionary and Corpora

·           その他

Ø        自然言語処理論(担当:石崎俊教授、金曜2限)TA

Ø        環境情報学の創造 第04 2008/05/01

·           石崎研究会紹介

Ø        石崎俊研究会 B2 (火曜5限)

·           認知言語学と自然言語処理をテーマとするグループワークの担当

Ø        プログラミングやベイズ統計学についての、文献による学習

研究発表

                   [1]       石崎研究室, “石崎研究室 自然言語処理と認知・脳科学”, SFC Open Research Forum, 東京, 200811.

                   [2]       堤田恭太, “石崎研究室 語の曖昧性解消プロジェクト 語の曖昧性解消システムの構築”, SFC Open Research Forum, 東京, 200711.

                   [3]       堤田恭太, 岡本潤, 内山清子, 石崎俊, “連想概念辞書とコーパスを組み合わせる曖昧性解消法”, 情報科学技術フォーラム(FIT, IPSJ(情報処理学会), FIT2007予稿集 pp.151-152, 愛知, 20079.

                   [4]       堤田恭太, 岡本潤, 内山清子, 石崎俊, “連想概念辞書とコーパスを組み合わせる曖昧性解消手法の検討”, 言語処理学会第13回年次大会, 滋賀, 20073.

まとめと今後の展望

本研究では,語義の曖昧性解消におけるいくつかの問題に対して,連想概念辞書がもつ性質とコーパスを利用するメリットによって効果的に対処でき,手法の有効性を示した.その主な特徴は,以下の3点である.

l        連想概念辞書を用いて,コーパスから取り出すべき学習データを自動的に選定できるので,正解データの付与などの人手で行われる作業コストを大幅に減らすことができる.

l        コーパスでの学習量が十分に確保できない場合にも,連想語を用いて関わりの強い文を選定・収集することによって,学習に用いるデータをある程度確保することが可能となる.

l        コーパスを用いて学習したデータを利用する手法の精度は,用いたコーパスに依存してしまう傾向が有るのに対し,人間のより柔軟な知識(常識)を電子化したものである連想概念辞書をコーパスと組み合わせて用いることで,より汎用的な学習データを作ることができる.

また本研究は,連想概念辞書を用いるこれまでの手法(堤田ら, 2007)に加え,語の曖昧性解消に文脈付き連想実験を用いる手法の評価と特徴について検討した.文脈付き連想実験を行った本研究は,連想概念辞書を用いたこれまでの手法と上記の3点において同様の性質を示し,曖昧性解消の精度を改善した.

今後の展望としては,本手法は特定分野のコーパスのみを用いた学習に汎用性を持たせるという特性が期待できることから,複数分野に対する共通の知識基盤を構築する際に連想概念辞書を用いることが有効であることを示し,今後のそうした大規模な言語データや知識基盤構築に貢献するといった成果が期待される.