ルビ・アノテーション用辞書のユーザ参加型自動構築試作研究

慶應義塾大学大学院政策・メディア研究科博士課程3年

鳥原　信一

はじめに

慶應義塾大学石崎研究室などの研究成果を、社会貢献活動として、外国人の日本語学習者、小学生、学習障害者などのために、任意団体「アダプティブテクノロジー」として、オンライン無料ルビ振りサービスを行っている。

日本語のWebページに自動的にルビ（読み仮名）アノテーションを行っている。日本語の解析および読みの取得には、奈良先端科学大学院大学の”ChaSen”を用いている。

ChaSenのシステム辞書に加えて、アダプティブテクノロジー独自のユーザー辞書を構築している。ルビ振りサービスの利用者に誤変換報告をしてもらい、分析・辞書修正・検証後、誤変換報告に対して辞書更新報告を行っている。これらの一連の過程を自動化することを念頭うに、まずはプロセスの明確化を行った。すなわち、辞書編集者のマニュアル・オペレーションを明文化することにより、ユーザー参加型自動辞書構築に近づける。

研究の詳細

ルビ振りサービスのユーザーにWebページを通して誤変換報告をしてもらう。

http://www.adaptive-techs.com/dict/errorreport.html

Webページに対する読み付与のため、まずWebページ上で確認する。

文字列の途中にスペースやhtmlタグがないことを確認する。

コマンドプロンプトで誤変換の再現テストを行う。

誤変換の漢字文字列の一部または全部で辞書の見出し（漢字文字列）を検索する。

検索リストを見て、文法の誤り、読みのあやまり、エントリーがない（未知語）などを判断する。

文法の誤り、読みの誤りの場合は、該当のエントリーをコピーして、コピー元のエントリーはコメントアウトし、コピー先のエントリーは修正する。

辞書にエントリーを追加する場合には、利用できるエントリーをコピーして、コピーしたエントリーを新しいエントリーとなるように修正する。

辞書をビルドする。

コマンドプロンプト上で、正しい読みが得られるか確認する。

辞書をシステム（サーバー）に配備する。

Webページ上で、検証する。

辞書更新報告をする。

ユーザーは誤変換報告リストを見て確認できる。

http://www.adaptive-techs.com/dict/errorreport.html

おわりに

上記の辞書修正過程の記述により、全自動は困難であるが、”interruptive”であれば、辞書構築が効率よく、誤変換報告から辞書更新報告までのターンアランドを短くすることは可能であるようだ。

今後は、このようなユーザー参加型半自動辞書構築システムを開発したいと思う。