2007年度森泰吉郎記念研究振興資金

研究者育成費 研究成果報告書

氏名:堤田 恭太
所属:慶應義塾大学大学院 政策・メディア研究科
修士課程1年 石崎研究室所属

e-mail: kfta [ at ] sfc.keio.ac.jp

森泰吉郎記念研究振興基金

·          研究課題:
連想概念辞書とコーパスを組み合わせる曖昧性解消

·          決定額(円):100,000

 

研究の目的と概要


近年,電子化されたデータが増加するにつれ,そこからの情報抽出などの応用が考えられる自然言語処理への期待は,一層大きなものとなってきた.その一方で,コンピュータで自然言語を処理するにあたっては,いくつかの大きな問題があり,例えば,多義語の曖昧性解消は様々なアプローチからの研究がなされている.中でも,コーパスでの共起語を用いたナイーブ・ベイズ法などの統計的に曖昧性を解消する手法がよく使われている.しかし,十分に有効な共起語を得られない場合に分類精度が低くなること,正解データを人手で付与するコストがかかること,作成した学習データの汎化能力に問題があることなどが知られている.

そこで本研究では,

1.         データ作成のコスト

2.         分類の精度

3.         学習データの汎化性能

3点において,多義語の同定に有効な手法を提案した.まず,人間を被験者とした連想実験により得られた結果を構造化した連想概念辞書とコーパスを用いて,曖昧性解消に有効な関連語を自動的に収集した.次に,その頻度情報をパラメータにしたナイーブ・ベイズ法による分類を複数のテストデータに対して行い,分類の精度と学習データの汎化能力の検証を行って,本手法の有効性を示した.

 

活動

·          研究プロジェクト発表

Ø        論文調査発表
語義曖昧性解消に関する研究についての調査

Ø        研究進捗発表
FIT2007
での発表に対するフィードバックを受けての今後の研究計画について

·          自然言語処理サブゼミ

Ø        語義曖昧性解消をテーマとするグループワークの担当

Ø        プログラミング言語rubyの勉強会への参加

·          その他

Ø        プログラミングやベイズ統計学についての、文献による学習

Ø        解析に用いるデータの収集・加工などの作業

成果発表

·          情報科学技術フォーラム(FIT

Ø        堤田恭太, 岡本潤, 内山清子, 石崎俊
「連想概念辞書とコーパスを組み合わせる曖昧性解消法」
情報科学技術フォーラム(FIT, IPSJ(情報処理学会),FIT2007予稿集 pp.151-152, 愛知, 20079.

·          SFC Open Research Forum 2007 (ORF2007

Ø        石崎研究室 語の曖昧性解消プロジェクト
「語の曖昧性解消システムの構築」
SFC Open Research Forum,
東京, 200711.


.1 ORF2007登録画像

まとめと今後の展望

本研究では,語の曖昧性解消における主な3つの問題に対して,連想概念辞書がもつ性質とコーパスを利用するメリットによって効果的に対処でき,手法の有効性を示した.特に,連想概念辞書を用いてコーパスから取り出すべき文を自動的に選定することで,正しい分類先の付与などの人手で行われる作業コストを大きく減らすことができた.また,多義語についてのコーパスによる学習量が十分に確保できない場合にも,連想語を用いた関連の強い文の選定・収集により,学習に用いる有効なデータを確保し,分類精度を改善できることを示した.さらに,連想概念辞書が人間の持つ常識に近い一般的な知識を提供することで,学習データに汎用性を持たせた.このことから,今後,複数の専門分野にまたがる共通の知識基盤構築に用いて,データに汎用性を持たせることなどへの応用が考えられる.今後の研究課題として取り組んでいきたいと考えている.