Powered by SmartDoc

認知実験と機械学習を組み合わせた世界知識獲得

粟飯原俊介
慶應義塾大学 政策メディア研究科
aihara@sfc.keio.ac.jp
http://web.sfc.keio.ac.jp/~aihara/

初めに

コンピュータが言語を理解、処理するためには、構文的な情報や意味的な情報だけではなく、人間が持つ言外の常識・知識(世界知識)が必要であり、このような知識は、高度な言語処理を行うにあたって重要な情報となる。しかしながら、コンピュータで利用可能な世界知識を構築する手法に関しては、人手での構築のコストや、構築できるサイズに関して未知数であり、またコンピュータによる自動獲得においても目覚しい進展があるとは言い難く、知識の自動獲得の手法が求められているといえる。世界知識の中において、現在主に自動獲得の焦点となっている知識には以下の2つが挙げられる。

語と語の意味的関係

高度な自然言語処理を行う際には、語と語の意味的関係に関する情報が非常に重要になってくる。語と語の関係に関しては、古くから意味ネットワークやフレームとして研究が行われており、近年ではセマンティックウェブやオントロジー工学という形で研究が進められている。

事象と事象の間の因果関係

因果知識、ひいては事象間の関係というものは、人工知能分野等ににおいても関心が向けられ、その知識を蓄積したデータを利用し、推論や言語理解研究が活発になされてきた。たとえば、質問応答システムにおける推論過程では、事象の前提条件やその結果に関する知識を利用する。「明日はレインコートが必要か?」というクエリに対して柔軟に応答するためには、「レインコートを着る前提条件は雨が降っていることである」という因果関係から推論を行い、「明日雨であればレインコートが必要である」、「明日は雨か否か?」という推論過程を経て返答する必要がある。

本研究では、被験者に特許文書から定型表現パターンによって抽出したデータを提示し、得られた語間関係データを元に、Support Vector Machine[2]を利用し、語の意味的関係を獲得するモデルの検討を行った。

研究背景

語の意味関係を獲得するタスクでは、上位・下位関係を表す定型表現を用いる方法[2]、言語的パターン、HTML タグ、単語の出現に関する統計値を利用する方法[3]、特定の専門分野における専門用語と強く関連する語を収集する手法[4]、サ変動詞を含む定型表現パターンから機械学習を行いドメインオントロジーの自動獲得を行う手法[5]などがある。

語間関係の獲得手法

語間関係の獲得に関する先行研究では、言語的パターン、たとえば、「AなどのB」「AをBする」といった語の関係を表す定型表現を事前に用意し、テキスト中からそのパターンに該当する語のペアを抽出することにより、語彙情報を獲得している。 従来の研究に用いられる定型表現は、主に上位・下位、同義・類義が中心であったが、特許文書を複数の観点で分類するためには、目的、用途、部分全体等の関係も抽出することが重要となってくる。 本研究では、目的、用途、部分全体関係を決定する表現を特許文から抽出し、その定型表現のパターンのモデル化と、と意味関係の対応付けをモデル化し、語間の意味的関係の自動獲得を行う。

先行研究にて利用されているパターンルールは、限定された分野を対象とした定型表現のため、汎用的ではないと言える。ただし、機能語や、和語動詞で構成された定型表現は、基本的に複数分野においても適用が可能であり、また機能語や和語動詞は数が限られているため、すべて列挙してルール化を行うことは不可能ではない。ただ、サ変名詞を含むメタパターン(助詞+名詞(サ変接続)+動詞(サ変スル)+助動詞(基本形))は、サ変名詞自体非常に数が多く、また分野ごとによる出現の偏りが多いため、このメタパターンで構成されるパターン(を格納する等)は分野ごとにそれぞれルール化をする必要があり、そのコストは非常に高いものであるといえる。しかしながら、サ変名詞の意味属性を等を素性とすることによって、汎用的なパターンへと拡張することが可能であると考えられる。

意味関係の種類

語間の意味関係を表現するために、概念記述言語(CDL: Concept Description Language)のCDL.nlにある関係概念を使用した。本研究では45個の関係概念のうち、(1)Met (method or mean:方法)、(2)Pur (purpose or objective:目的)、(3)Pof(part-of:部分)を選択し、語と語の意味的関係の獲得の対象とする。

対象とするデータ

語(名詞)と名詞にはさまれた定型表現パターンのうち、助詞+名詞(サ変接続)+動詞(サ変スル)+助動詞(基本形)の形式の物をはさんだものを対象とし、語+定型表現+語(例:意味情報を記述した単語辞書)パターンを収集する。

パターンと関係の例
定型表現パターン 関係 関係方向
Aに変換するB ins B→A 目的言語に変換する機械翻訳方法
Aに翻訳するB ins B→A 英語文に翻訳する翻訳プログラム
Aを格納したB pof B→A 語彙情報を格納した単語辞書
Aを含むB pof B→A 構文解析を含む機械翻訳装置
Aを記憶するB pof B→A 単語情報を記憶する記憶領域
Aを備えたB pof B→A 翻訳処理を備えた翻訳装置

語間関係抽出の対象とする名詞の抽出は、形態素解析を行い名詞連接を結合した状態で、tf-idf法によるスコアリングを行い、特定分野内の文書集合における上位2000語を対象とした。

サポートベクトルマシン法

サポートベクトルマシン法は、空間を超平面で分割することにより異なる2つの分類からなるデータを分類する手法である。この時、2つの分類が正例と負例からなるものとすると、学習データにおける正例と負例のマージンが大きいものほど汎化性能が高いと考えられるため、このマージンを最大にする超平面を求めて分類を行う。通常、学習データにおいてマージンの内部に少数の事例の存在を許容する手法(ソフトマージン法)や、超平面の線形の部分を非線形にする拡張(カーネル関数の導入)がなされたものが用いられる。[1][6]

一般にカーネル関数にはさまざまなものが用いられるが、本研究では以下の多項式カーネル(式13.3.1)とANOVAカーネル(式23.3.2)のものを用いる。

K ( x , y ) = ( s x * y + r ) d (3.3.1)
K ( x , y ) = ( i e x p ( - s * x i - y i 2 ) ) d (3.3.2)

サポートベクトルマシン法は分類の数が2個のデータを扱うもので、通常これにOne-vs-One法や、One-vs-Rest法を組み合わせて用いることによって分類の数が3個以上のデータを扱うことになる。

One-vs-One法(pointwise法)とは,分類したいクラスがN個ある場合,全てのクラスごとの二値分類器をつくり、全てにおいて分類を行った結果の多数決で求められたクラスを最終的な結果とみなす。

One-vs-Rest法は、分類したいクラスがN個ある場合、あるクラスに属するか属さないか、という二値分類器をクラス数分構築し、それらの分類結果の中で正解と分類されたクラスの中で、超平面からの距離が最大のものを最終的な結果とみなす。

モデルの詳細

本分類タスクにおいて使用した素性は表3.4.1[素性情報]の通りである。EDR概念辞書に存在しない語に関しては、人手で同義語と同じidを付与し、素性化した。

素性情報
素性 説明
対象語の終端語基 「装置」、「方式」、「機器」……等、パターン中出現上位終端語基12語基を2個の名詞それぞれに
格助詞 「の」、「に」、「が」、「を」、「で」……
サ変名詞の意味的分類 EDR概念辞書で語に付与されている概念ツリーの4階層目
動詞「する」の語形 「する」、「される」、「した」、……

学習データとして、機械翻訳分野から抽出したデータを3名の被験者に提示し、過半数以上の人間が同じ関係を割り振った207パターンを利用し、分類データとして、特許の名称に「デジタルスチルカメラ」を含む344文書から抽出した233パターンを用いて判別を行った。

実験と評価

語間関係の自動獲得実験の結果を表3.4.1[素性情報]に記す。

ベースラインとしては、もっとも出現頻度の高い主語位置と述語(関係子)を割り当てた場合の正解率を使用した。主語位置としては、定型表現の前に来る語を割り振り、述語(関係子)には、pof(部分、全体)を、主語述語組としては定型表現の後に来る語+pofを与えた場合の正解率を用いている。

語間関係自動獲得結果
実験内容 SVM BL
主語判別器の正解率 70.1% 59.2%
関係分類器の部分一致率 69.1% 63.9%
関係分類器の完全一致率 57.9% 62.6%
主語判別+関係部分一致時の正解率 49.8% 35.6%
主語判別+関係完全一致時の正解率 40.3% 34.3%

基本的にはベースラインよりも良い結果が得られたが、関係分類器の完全一致率のみ、ベースラインよりも悪い結果となった。主語判別器と述語分類器それぞれの出力結果はそれほど悪いものではないが、その両方をマージした場合の結果はあまり良いものとはいえない。原因として考えられるものは、学習データの数の不足や、素性選択の不十分さなどが考えられる。また、学習データや分類データに人手で関係を付与する際のガイドラインができておらず、付与が揺れている場合があることも原因であると考えられる。

おわりに

本研究では、特許文書から、特定のパターンにマッチする言語表現を抽出したものを被験者に提示し、タグ付けしたものを教師データとして、機械学習による語間関係の獲得実験を行い、一定の成果を得ることが出来た。

しかしながら、精度や、評価に関しては問題点は山積している。今後は、学習手法や素性の調整などを行うことによって精度の向上を図ると同時に、語と語の関係の定義を明確にし、人手で揺れのない語間関係の付与を可能としていく必要がある。

参考文献

[1] Valdimir N. Vapnik.. Statistical Learning Theory. John Wiley and Sons inc, 1998.
[2] Hearst, M.A.. Automatic Acquisition of Hyponyms from Large Text Corpora. In proceedings of the 14th International Conference on Computational Linguistics (Coling'92), pp.539-545., 1994.
[3] 徳永耕亮, 風間淳一, 鳥澤健太郎. 属性語のWeb文書からの自動発見と人手評価のための基準.. 自然言語処理,Vol.13, No.4,pp.49-67., 2006.
[4] 佐々木靖弘, 佐藤理史, 宇津呂武仁. 関連用語収集問題とその解法.. 自然言語処理,Vol.13 No.3,pp.151-175., 2006.
[5] 粟飯原俊介,内山清子,石崎俊. 特許文における分野オントロジー構築のための重要複合語の抽出と重要複合語間関係の定義. 言語処理学会第13回年次大会, 2007.
[6] 村田真樹,内山将夫,内元清貴,馬青,井佐原均. SENSEVAL2J 辞書タスクのCRLの取り組み−日本語単語の多義性解消における種々の機械学習手法と素性の比較. 自然言語処理,Vol.10,No.3,pp.115-133., 2003.