2011年度森泰吉郎記念研究振興基金研究成果報告書
-連想を基盤とした文彩表現の認知モデル化と自然言語処理への応用研究-

寺岡 丈博

慶應義塾大学大学院政策・メディア研究科
teraoka@sfc.keio.ac.jp


1. 背景と目的

自然言語処理技術が著しく発展してきた今日ではあるが,人間に近づくような意味理解を行うまでの精度を求めるのは未だに困難である.特に,隠喩や換喩などをはじめとする比喩表現や修辞的な省略,そして擬人法などの文彩表現に対する意味理解などの処理は課題が多いのが現状である.なぜならば,従来の処理で必ず用いられてきた単語の品詞や文法などの表層的な言語情報だけでは,コンピュータが人間のように言語の意味を扱うには不十分であるためである.人間は,言葉を話す或いは書く際にそれらの言語学的な情報だけでなく,言葉の背景にある膨大な情報を一般的な知識として利用している.すなわち,コンピュータの言語理解機能を向上させ,人間のレベルに近づけるためには人間が持つ複雑で膨大な言語関連情報を体系化して使用できるようにする必要がある.

本研究では,意味理解において重要な役割を持つ動詞を刺激語にして深層格の情報を抽出する連想実験を行い,動詞連想概念辞書を構築することで動詞における知識の体系化を図っている.ここでは,刺激語(動詞)と連想語(名詞など)の間の単語間距離(連想距離)を定量化することにより意味的な距離を計算可能にしている(寺岡, 2008).この動詞連想概念辞書と既存の名詞を中心とした連想概念辞書(名詞連想概念辞書)(岡本, 2001)を併用することで,単語と単語の意味的な連想関係を用いることで,人間が文章を読んで理解することや言葉を話すなどの認知モデル化が可能になると考えられる.そして,文彩表現に対するコンピュータの言語処理に応用することで,従来の手法よりも高い精度が期待できる.また,動詞連想概念辞書の見出し語(刺激語動詞)を増やして規模を拡張できれば,動詞の深層格情報と連想距離を用いたクラスター分析や日本語教育の学習支援ツールの提案など認知言語学や言語学などの他分野における応用も期待できるため,多岐に渡る応用を視野に入れて規模の拡張を図る.


2. 研究成果の概要

今年度は文彩表現の一種である換喩(Metonymy)について,「検出」と「解釈」に分けてモデル化した後にコンピュータシステムへ応用を図った.そもそも換喩とは,隣接性に基づいた比喩の一種であり,「一升瓶を飲み干す」という文にもみられるように,字義通りの解釈("一升瓶を丸ごと飲む")と換喩表現を考慮した解釈("一升瓶の中の酒を飲む")では全く意味が異なる内容になる.ゆえに自然言語処理の分野において,文中のどこが換喩表現に該当するのかを正しく検出することが,換喩表現を正しく解釈する以前に重要であると考えられる.そのため,本研究では「換喩の検出」についてモデル化を行い,コンピュータシステムに実装し,従来の手法と比較実験を行った.その後,「換喩の解釈」についてもモデルを実装し,小規模な実験であるが評価を行った.また,上記の内容と並行して動詞連想概念辞書の拡張も図った.

2.1 換喩の検出と解釈

動詞連想概念辞書と日本語WordNetのsynset(同義語をまとめたもの)の階層関係を主に利用して,モデルの実装を図った.自然言語処理の分野の先行研究を参考にした手法をベースラインとして比較実験を行った.尚,本研究で構築したシステムの各処理の過程より特徴量を抽出し,機械学習による最適化を行ったところ,換喩表現の自動検出においてベースラインよりも統計的有意差とともに高い精度を確認することができた.

換喩表現の解釈においては,換喩表現が指している語に言い換えることを目的として,システムを構築した.この自動言い換えには,動詞連想概念辞書の他に,名詞連想概念辞書も組み合わせることが必要だったのだが,辞書の規模による制約のために換喩表現の検出と同様の規模の評価実験を行うことができなかった.ただし,先行研究(村田ら,2001)で行われている小規模な実験と同様の環境では,より人間に近い換喩表現の言い換えが可能になっていることを確認することができた.

2.2 動詞連想概念辞書の拡張

動詞を刺激語とした連想実験を行い,刺激語動詞を239語から345語まで増加させた.それに伴い,連想語数と異なり語数はそれぞれ135,000語と30,000語の規模まで動詞連想概念辞書の拡張を行った.今年度の拡張により,連想語の表記ゆれの修正が大きな課題になっている.そのため,今後としては,これらの修正の自動化を行い,連想辞書としての質の向上を目指す.


3. 研究業績(2011年度)

学術雑誌

国際会議