2003年度　森泰吉郎記念研究振興基金　研究成果報告

2003年度　森泰吉郎記念研究振興基金　研究成果報告

脳記憶モデルの構築と自然言語処理システムへの応用

　慶應義塾大学大学院　政策・メディア研究科博士課程3年　坂口琢哉

1.研究課題概要

　本研究では、脳の記憶構造に関するモデルとして「脳記憶モデル」を構築する。脳記憶モデルは、連想概念辞書と呼ばれる自由度の高いデータと、パルスニューラルネットワークと呼ばれる時間変化に対し柔軟性の高いアルゴリズムを用いてデザインされたモデルであり、両者の性質を継承した柔軟な挙動が特徴である。現在は自然言語処理への応用を中心に構築・改良が進められており、中でも比喩理解や単語の多義性解消といった、従来の自然言語処理システムでは困難だった「高度な」自然言語処理問題に対し、その柔軟性を利用して優れたパフォーマンスを発揮している。更に今後、本モデルにニューラルネットワークの持つ自己組織化を導入する事で、より合理的で柔軟な対応が可能なモデル構築が期待できる。

2.本年度の研究成果

　本年度は、前年度までに構築した比喩理解システムの評価を中心に研究を進めた。

　比喩理解システムとは、連想概念辞書をニューラルネットワークによって実装した「脳記憶モデル」と呼ぶ基礎モデルを基に構築されたシステムで、例えば「その肌は雪のようだ」という比喩の入力に対し、「その肌はとても白い」といった比喩理解結果を出力する。この「白い」という単語は「肌」と「雪」という二つの単語の裏に隠された共通属性であり、これを脳記憶モデルでは合理的に探索する事ができる。また、共通属性が複数存在した場合には、それらのうちどの共通属性が比喩理解の解として最適であるのかを定量的に計算し、選択するアルゴリズムも備えている。本年度行った研究成果は、主にこの選択アルゴリズムの妥当性に関する検証であり、具体的には後述するような「交換比喩における最適解の差異」および「最適解の人間による評価実験」という二つの観点から評価を行った。

2.1 交換比喩における最適解の差異

　比喩「そのAはBのようだ」という文に対し、AとBを入れ替えた「そのBはAのようだ」という文を考え、本研究ではこれを「交換比喩」と呼ぶ事にする。交換比喩は例えば「その人はロボットのようだ」に対する「そのロボットは人のようだ」等である。両者を共に比喩として理解を試みた場合、前者は「ロボットのように冷たい人」あるいは「ロボットのようにお堅い人」、一方後者は「人のように賢いロボット」といった比喩理解が一般的であろう。つまり、比喩を構成する単語AとBが同じでも、その順番を入れ替えることによって、比喩理解の結果は全く別になる可能性がある、という事である。これは比喩理解において、単に両者の共通属性を探索すれば良いとするOrtony(1979)の理論では不十分であり、そこに何らかの非対称性を考慮する必要性を示唆するものである。

　詳細は割愛するが、本システムではこの非対称性を、パルスニューロンの発火タイミングの「ずれ」によって実現している。そしてこれを検証するため、実際に幾つかの比喩と交換比喩を用意し、システムによる出力の違いについて考察を行った事が、本年度における研究成果の一つである。

　具体的には、脳記憶モデルにおいて共通属性を5つ以上持つような単語AとBの組み合わせ(71組)を選出し、それらによって構成された比喩および交換比喩(142例)について、システムによる比喩理解の結果を検証した。表1に、その結果を示す。

表1:選出された単語対とシステムの出力結果

　表1に見られるように、本システムでは多くの例において、比喩と交換比喩を区別して理解できている事が分かる。具体的には、71例中21例において、比喩と交換比喩とを区別するという結果に至った。これは、従来のOrtonyによる比喩理解では見られなかった結果であると言える。

　本研究では更に、上記の結果を区別できたもの、区別できなかったものに分類し、両グループにおいて比喩を構成する単語AやBにどのような傾向があるのかを調査した。

　その結果、一般に比喩と交換比喩を区別して理解できているグループには、区別てきなかったグループと比べて「最小距離が大きい」単語が多く存在する事が示された。表2はその一例であり、上記3つの単語が比喩と交換比喩を区別できたグループ、下記3つが区別できなかったグループに多く見られた単語である。前者の最小距離は約2.0～4.0であるのに対し、後者の最小距離はいずれも1.0台と、かなり両者に差がある事が分かる。

表2:グループごとにおける単語の使用頻度と最小距離

　「最小距離が大きい」という事は、その単語の特徴を決定付ける程に強く結びついた他の単語が存在しない、言わば「クセの無い」単語である。例えば「ギター」には、それを特徴付ける単語として「楽しい」「うるさい」などが結合しているが、脳記憶モデルにおいてそれらの結合強度はいずれも強くなく、「ギター」を決定付ける要素には至っていない。これに対し、「グランドピアノ」には「大きい」という単語が距離1.54で結合しており、「グランドピアノ」自身を決定付ける要素となっている。このように、距離2.0を下回るような強い結合が存在する単語は、言わば「クセの強い」単語であり、こういった単語で構成された比喩は、交換比喩との区別が難しいという事になる。その理由として、本システムでは比喩理解の最適解を求める際に単語間の距離を参照するが、距離2.0を下回るような結合が存在する場合、その計算バランスが崩れ、結果として比喩と交換比喩の出力結果が同じものになってしまうという可能性が考えられる。この点に関しては、想定し得る距離の定義域を拡大して計算上のパラメータを調整する事で対応できると考えている。ただし、比喩と交換比喩を区別できる事が、一概に比喩理解の向上に繋がるとは限らないため、今後はその点についても留意しつつ、更に複雑な評価方法へと発展させていく必要があるだろう。

2.2 最適解の人間による評価実験

　前節で選出した71組、142例の比喩と交換比喩について、システムの出力結果がどの程度妥当であるのかを、被験者によって評価実験を行った。

　具体的には、システムに入力された比喩「そのAはBのようだ」とそれによる比喩理解の結果「そのAはとてもC」を基に「そのAはまるでBのようにC」という文を生成し、それぞれの文がどの程度自然であるのかを、1～7の数字で回答させた。尚、実験は紙面上とし、被験者はSFCの学生30名、1人当たり45例を目安に行った。

　結果の詳細については割愛するが、評価は予想より低く、7段階評価で1や2といった例も多く見られた。この点については更に深い考察が必要であるが、実験で提示した文「そのAはまるでBのようにC」に対して、本来評価されるべき比喩理解結果の単語Cではなく、むしろシステムへの入力であった「そのAはまるでBのように」の部分に強い違和感を覚え、それが低評価の原因となった可能性が考えられる。

　この問題は、そもそも評価実験で使用した142例の文生成を機械的に行い、その際に比喩の可能性を検討しなかった事に起因する。これを解決する方法として、文生成の際に比喩の可能性を一つ一つ検証していくという事はもちろん考えられるが、実際にはそれぞれの文が比喩であるかを主観で判断する事は極めて危険であり、また人手によるコストも無視できない。そこで、システム自身に比喩の判定アルゴリズムを実装し、それによって比喩理解の前段階でまずそれが比喩であるかどうかを自動判定し、比喩でないと判断したものについては入力文を弾くように改良する事が、汎用的な比喩理解システムの実現に向けて有効であると考えられる。

3.今後の展望

　今後の展望としては、まず比喩理解システムについて、上述したような改良を加えた後、更に複雑な評価を検討していく必要がある。具体的には、交換比喩のより適切な評価方法や、比喩の判定アルゴリズムに関する評価方法などである。

　また脳記憶モデルに関する今後の展開としては、自然言語処理に留まらない広い範囲での応用を考えている。

　脳記憶モデルとは、本来ニューラルネットワークにおけるニューロンに情報を一対一で符号化する事で、その優れた並列処理を利用した様々な問題解決への応用を目的としたものであった。今後は符号化の対象として単なる「単語」だけではなく、問題を抽象化した際の構成要素や場面など、様々な符号化の可能性を追求していく予定である。

　それがいつか、人間の言語処理能力だけではない、本当の意味での「脳記憶モデル」へと繋がる事を夢見て。

4.学会発表・論文執筆

本年度は、一本の国際発表、および一本の研究会発表を行った。

[1] Takuya Sakaguchi, Jun Okamoto and Shun Ishizaki, "Associative Concept Dictionary and Its Brain Memory Model For Metaphor Understanding System", 41st Annual Meeting of the Association for Computational Linguistics, Exhibition Brochure, pp.19, 2003.

[2] 坂口琢哉, 石崎俊, "連想概念辞書の実装による意味ネットワークと比喩理解システムへの応用", 情報処理学会研究報告「数理モデル化と問題解決」, 2003-MPS-46, pp.21-24, 2003.