2012年度森泰吉郎記念研究振興基金研究成果報告書
-動詞連想概念辞書の構築・拡張とその応用研究-

寺岡 丈博

慶應義塾大学大学院政策・メディア研究科
teraoka@sfc.keio.ac.jp


1. 背景と目的

自然言語処理技術が著しく発展してきた今日であるが,それでも人間と同等な意味理解の精度を求めるのは,未だに困難である.なぜならば,コンピュータが人間のように言語を理解するには単語の形態素や語順などの言語の表層的な情報だけでは不十分だからである.人間は言葉を話す或いは書く際にそれらの言語的な情報だけでなく,膨大な言葉の背景知識を利用している.すなわち,コンピュータの言語理解機能を人間と同等程度まで向上させるには,人間が持つ複雑で膨大な言語関連情報を体系化して使用できるようにする必要がある.この体系化を目指したアプローチの一つとして連想概念辞書(岡本, 2001)が挙げられる.連想概念辞書は,人間の直感に基づいた大規模な連想実験のデータを用いて,言葉の背景にある情報・知識を体系化したものである.さらに,連想実験における刺激語に対して連想語がどれくらい連想され易いかを表す連想距離を定量化し導入することによって,テキスト中の語の意味に関する距離を計算可能にしている.従来の連想概念辞書は名詞を中心として構築されており,重要文の抽出(岡本, 2003)や多義性の解消モデルなどに応用されている.しかし,日常の言語理解において,動作や状態変化を表す動詞が中心的な役割を果たしていることから,動詞に関しても言葉の背景の情報を同様に体系化して利用する必要性がある.

本研究では,意味理解において重要な役割を持つ動詞を刺激語にして深層格情報を抽出する連想実験を行い,動詞連想概念辞書を構築・拡張することで動詞における知識の体系化を行うとともに拡充を図っている.さらに,既存の名詞を中心とした連想概念辞書(名詞連想概念辞書)(岡本, 2001)と同様に,刺激語(動詞)と連想語(名詞など)の間の単語間距離(連想距離)を定量化することで意味的な距離を計算可能にしている(寺岡, 2011).これらの名詞連想概念辞書と動詞連想概念辞書を併用し,単語と単語の意味的な連想関係を用いることで,人間の名詞や動詞に対する連想情報をコンピュータが利用することが可能となる.そのため,意味を正しく理解できないと誤った出力をしてしまう比喩理解や省略語推定,照応解析などの処理に連想概念辞書を応用することで,精度向上を図る.


2. 研究成果の概要

今年度は,比喩表現の一種である換喩(Metonymy)の自動検出システムに動詞と名詞の連想概念辞書を応用し,現在主流となっている統計的な手法に比べて高い精度を実現することを目指した.換喩とは,隣接性に基づいた比喩の一種であり,「一升瓶を飲み干す」を例として挙げると,字義通りの解釈では「一升瓶を丸ごと飲む」となるが,通常は換喩表現の意味を考慮して「一升瓶の中の酒を飲む」である.このことから,換喩を考慮するのとしないのとでは全く意味が異なる内容になる.そのため,自然言語処理の分野では,文中の換喩表現を正しく検出することが,まずは重要である.これまで提案されてきた従来の手法に対して,本研究の提案手法の精度がどれくらい高いかを示し,そして精度向上の最もな要因の分析・考察を行った.

2.1 換喩表現の自動検出

動詞連想概念辞書と日本語WordNetのsynset(同義語をまとめたもの)の階層関係を主に利用する手法を提案し,先行研究を参考にした手法をベースラインとして比較実験を行った.さらに,本研究で構築したシステムの各処理の過程より特徴量を抽出し,機械学習の一つである決定木学習を用いて最適化を行ったところ,換喩表現の自動検出において共起情報を主に用いて作成した4つのベースラインよりも,高い精度で換喩表現かリテラルな(字義通りの)表現かを判別できた.そして,どのベースラインよりも提案手法が統計的に有意であったため,提案手法の有効性を示すことができた.

2.2 動詞連想概念辞書の拡張

動詞を刺激語とした連想実験を行い,刺激語動詞を345語から440語まで増加させた.これらの連想実験のデータを動詞連想概念辞書に加えることで,連想語数と異なり語数はそれぞれ176,000語と36,000語の規模まで拡張することができた.この拡張により,連想語の表記ゆれの修正が大きな課題になっている.今後は,表記ゆれの解消を行い,これまでよりも連想辞書の質を上げていきたい.


3. 研究業績(2012年度)

国際会議

研究会など