2012年度森泰吉郎記念基金研究者育成費成果報告書

機械翻訳のための非対訳コーパスを用いた翻訳知識獲得

慶應義塾大学政策・メディア研究科
石崎俊研究室修士課程2年
藤島賢
2013年2月5日

概要

コンパラブルコーパス(bilingual comprable corpus)を用いて, 対訳関係にある表現を句(phrase)単位で自動的に獲得する手法についての研究を行う. コンパラブルコーパスとは, 1つ以上の自然言語を用いて記述された類似する文の集合であり, 対訳文の集合である対訳コーパス(parallel corpora)と比較した場合, 特定の言語対や領域に依存しないという特徴を有する.

現在の機械翻訳の主流であるコーパスに基づく機械翻訳(corpus-based machine)では, 予め翻訳を行いたい言語間において, 一対一の意味的対応関係を持つ対訳文を大量に用意し, それらの間での単語の出現頻度の比較などを用いて翻訳モデルを獲得する. そのため, 他の言語との対訳コーパスの絶対数が少ない日本語などの言語では, 統計的学習に対して十分な量の対訳文を得ることが難しく, 実用的な精度を備えた機械翻訳が実現しないことの一因として問題視されている.

しかしながら, 人手による対訳文の整備はコストが大きく, また, 訳者ごとの翻訳精度のばらつきなどの課題も多い. こうした対訳コーパスの不足に起因する問題に対し, 本研究ではコンパラブルコーパスを用いた対訳表現獲得の手法を提案し, 言語や領域に依存しない頑健性と実用的な精度を兼ね備えた機械翻訳の実現を目指す.

課題

言語間の形式的対応のずれ

機械翻訳における課題として, 同一の意味内容を表現する文の構成要素が, 2言語間において必ずしも一致しないという問題が存在する.
こうした対応のずれには, 語彙, 文法単位, 語順, 品詞のずれなどが挙げられる.

意味の類似度計算の難しさ

コンパラブルコーパスを用いた対訳語彙(lexicon)獲得において用いられる既存手法では, 特定の語彙同士を周辺共起語を用いてベクトル表現し, その類似度や距離を計算することにより, 2言語で対応関係にある語彙の対を獲得する.
しかし, 既存手法においては語彙を表現するベクトルが疎(sparse)となること, 精度はコンパラブルコーパスの量に依存すること, 2言語の表現を同一の空間に写像するための対訳辞書が不可欠となることなどが課題として存在する.

翻訳の要素合成の非単調性

2言語における表現の翻訳において, その表現を構成する要素の部分訳を合成することにより, 全体として正しい翻訳が得られる場合を翻訳の要素合成の単調, 部分訳を合成しても全体として正しい翻訳が得られない場合を非単調と呼ぶ.
こうした単調, 非単調は個々の語彙の組み合わせに依存するため, 予め, 全ての表現を列挙することや判別関数などを用いて自動的に判別することは困難である.

成果

句を単位とした対訳表現獲得手法の提案

上記の課題を克服し, 単語よりも大きな文法単位である句を単位とした対訳表現獲得を実現するため, トピックモデルを用いた類似度計算手法を新たに提案し, 対訳表現獲得実験において有効性を確認した.

対訳フレーズテーブルの作成

提案手法を用いて自動獲得した対訳句に対して人手による評価を行い, 対訳表現として適切と判断されたものを用いてフレーズテーブルを作成している. 対訳フレーズテーブルは, 機械翻訳システムにおいて学習データとして用いられ, 2言語における文の翻訳規則を生成するモデルとなる.

今後の展望

用例ベース機械翻訳システムへの応用

提案手法を用いて作成された対訳フレーズテーブルを利用した確率的用例ベース機械翻訳システムを構築している.

対訳フレーズテーブルの配布

再配布可能なコーパスデータを用いて作成された対訳フレーズを機械翻訳の研究や言語学習に利用できるよう, 一般公開するための準備を進めている.

学外発表

2013年度人工知能学会全国大会(第27回)において, 提案手法の詳細を発表することを予定している.

2012年度 森泰吉郎記念基金 研究者育成費 成果報告書