2012年度 森泰吉郎記念基金 研究者育成費 成果報告書

機械翻訳のための非対訳コーパスを用いた翻訳知識獲得

慶應義塾大学 政策・メディア研究科
石崎俊研究室 修士課程2年
藤島 賢
2013年2月5日

概要

コンパラブルコーパス(bilingual comprable corpus)を用いて, 対訳関係にある表現を句(phrase)単位で自動的に獲得する手法についての研究を行う. コンパラブルコーパスとは, 1つ以上の自然言語を用いて記述された類似する文の集合であり, 対訳文の集合である対訳コーパス(parallel corpora)と比較した場合, 特定の言語対や領域に依存しないという特徴を有する.

現在の機械翻訳の主流であるコーパスに基づく機械翻訳(corpus-based machine)では, 予め翻訳を行いたい言語間において, 一対一の意味的対応関係を持つ対訳文を大量に用意し, それらの間での単語の出現頻度の比較などを用いて翻訳モデルを獲得する. そのため, 他の言語との対訳コーパスの絶対数が少ない日本語などの言語では, 統計的学習に対して十分な量の対訳文を得ることが難しく, 実用的な精度を備えた機械翻訳が実現しないことの一因として問題視されている.

しかしながら, 人手による対訳文の整備はコストが大きく, また, 訳者ごとの翻訳精度のばらつきなどの課題も多い. こうした対訳コーパスの不足に起因する問題に対し, 本研究ではコンパラブルコーパスを用いた対訳表現獲得の手法を提案し, 言語や領域に依存しない頑健性と実用的な精度を兼ね備えた機械翻訳の実現を目指す.

課題

言語間の形式的対応のずれ

機械翻訳における課題として, 同一の意味内容を表現する文の構成要素が, 2言語間において必ずしも一致しないという問題が存在する.
こうした対応のずれには, 語彙, 文法単位, 語順, 品詞のずれなどが挙げられる.

意味の類似度計算の難しさ

コンパラブルコーパスを用いた対訳語彙(lexicon)獲得において用いられる既存手法では, 特定の語彙同士を周辺共起語を用いてベクトル表現し, その類似度や距離を計算することにより, 2言語で対応関係にある語彙の対を獲得する.
しかし, 既存手法においては語彙を表現するベクトルが疎(sparse)となること, 精度はコンパラブルコーパスの量に依存すること, 2言語の表現を同一の空間に写像するための対訳辞書が不可欠となることなどが課題として存在する.

翻訳の要素合成の非単調性

2言語における表現の翻訳において, その表現を構成する要素の部分訳を合成することにより, 全体として正しい翻訳が得られる場合を翻訳の要素合成の単調, 部分訳を合成しても全体として正しい翻訳が得られない場合を非単調と呼ぶ.
こうした単調, 非単調は個々の語彙の組み合わせに依存するため, 予め, 全ての表現を列挙することや判別関数などを用いて自動的に判別することは困難である.

成果

句を単位とした対訳表現獲得手法の提案

上記の課題を克服し, 単語よりも大きな文法単位である句を単位とした対訳表現獲得を実現するため, トピックモデルを用いた類似度計算手法を新たに提案し, 対訳表現獲得実験において有効性を確認した.

対訳フレーズテーブルの作成

提案手法を用いて自動獲得した対訳句に対して人手による評価を行い, 対訳表現として適切と判断されたものを用いてフレーズテーブルを作成している. 対訳フレーズテーブルは, 機械翻訳システムにおいて学習データとして用いられ, 2言語における文の翻訳規則を生成するモデルとなる.

今後の展望

用例ベース機械翻訳システムへの応用

提案手法を用いて作成された対訳フレーズテーブルを利用した確率的用例ベース機械翻訳システムを構築している.

対訳フレーズテーブルの配布

再配布可能なコーパスデータを用いて作成された対訳フレーズを機械翻訳の研究や言語学習に利用できるよう, 一般公開するための準備を進めている.

学外発表

2013年度 人工知能学会 全国大会(第27回)において, 提案手法の詳細を発表することを予定している.