ルビ・アノテーション用辞書のユーザ参加型自動構築試作研究
慶應義塾大学大学院政策・メディア研究科博士課程3年
鳥原 信一
http://www.adaptive-techs.com/
はじめに
慶應義塾大学石崎研究室などの研究成果を、社会貢献活動として、外国人の日本語学習者、小学生、学習障害者などのために、任意団体「アダプティブテクノロジー」として、オンライン無料ルビ振りサービスを行っている。
http://www.adaptive-techs.com/
日本語のWebページに自動的にルビ(読み仮名)アノテーションを行っている。日本語の解析および読みの取得には、奈良先端科学大学院大学の”ChaSen”を用いている。
ChaSenのシステム辞書に加えて、アダプティブテクノロジー独自のユーザー辞書を構築している。ルビ振りサービスの利用者に誤変換報告をしてもらい、分析・辞書修正・検証後、誤変換報告に対して辞書更新報告を行っている。これらの一連の過程を自動化することを念頭うに、まずはプロセスの明確化を行った。すなわち、辞書編集者のマニュアル・オペレーションを明文化することにより、ユーザー参加型自動辞書構築に近づける。
研究の詳細
ルビ振りサービスのユーザーにWebページを通して誤変換報告をしてもらう。
http://www.adaptive-techs.com/dict/errorreport.html
Webページに対する読み付与のため、まずWebページ上で確認する。
文字列の途中にスペースやhtmlタグがないことを確認する。
コマンドプロンプトで誤変換の再現テストを行う。
誤変換の漢字文字列の一部または全部で辞書の見出し(漢字文字列)を検索する。
検索リストを見て、文法の誤り、読みのあやまり、エントリーがない(未知語)などを判断する。
文法の誤り、読みの誤りの場合は、該当のエントリーをコピーして、コピー元のエントリーはコメントアウトし、コピー先のエントリーは修正する。
辞書にエントリーを追加する場合には、利用できるエントリーをコピーして、コピーしたエントリーを新しいエントリーとなるように修正する。
辞書をビルドする。
コマンドプロンプト上で、正しい読みが得られるか確認する。
辞書をシステム(サーバー)に配備する。
Webページ上で、検証する。
辞書更新報告をする。
ユーザーは誤変換報告リストを見て確認できる。
http://www.adaptive-techs.com/dict/errorreport.html
おわりに
上記の辞書修正過程の記述により、全自動は困難であるが、”interruptive”であれば、辞書構築が効率よく、誤変換報告から辞書更新報告までのターンアランドを短くすることは可能であるようだ。
今後は、このようなユーザー参加型半自動辞書構築システムを開発したいと思う。