ルビ・アノテーション用辞書のユーザ参加型自動構築試作研究

 

慶應義塾大学大学院政策・メディア研究科博士課程3

鳥原 信一

http://www.adaptive-techs.com/

 

 

はじめに

 

慶應義塾大学石崎研究室などの研究成果を、社会貢献活動として、外国人の日本語学習者、小学生、学習障害者などのために、任意団体「アダプティブテクノロジー」として、オンライン無料ルビ振りサービスを行っている。

http://www.adaptive-techs.com/

 

日本語のWebページに自動的にルビ(読み仮名)アノテーションを行っている。日本語の解析および読みの取得には、奈良先端科学大学院大学の”ChaSen”を用いている。

ChaSenのシステム辞書に加えて、アダプティブテクノロジー独自のユーザー辞書を構築している。ルビ振りサービスの利用者に誤変換報告をしてもらい、分析・辞書修正・検証後、誤変換報告に対して辞書更新報告を行っている。これらの一連の過程を自動化することを念頭うに、まずはプロセスの明確化を行った。すなわち、辞書編集者のマニュアル・オペレーションを明文化することにより、ユーザー参加型自動辞書構築に近づける。

 

 

研究の詳細

 

ルビ振りサービスのユーザーにWebページを通して誤変換報告をしてもらう。

http://www.adaptive-techs.com/dict/errorreport.html

 

Webページに対する読み付与のため、まずWebページ上で確認する。

 

文字列の途中にスペースやhtmlタグがないことを確認する。

 

コマンドプロンプトで誤変換の再現テストを行う。

 

誤変換の漢字文字列の一部または全部で辞書の見出し(漢字文字列)を検索する。

 

検索リストを見て、文法の誤り、読みのあやまり、エントリーがない(未知語)などを判断する。

 

文法の誤り、読みの誤りの場合は、該当のエントリーをコピーして、コピー元のエントリーはコメントアウトし、コピー先のエントリーは修正する。

 

辞書にエントリーを追加する場合には、利用できるエントリーをコピーして、コピーしたエントリーを新しいエントリーとなるように修正する。

 

辞書をビルドする。

 

コマンドプロンプト上で、正しい読みが得られるか確認する。

 

辞書をシステム(サーバー)に配備する。

 

Webページ上で、検証する。

 

辞書更新報告をする。

 

ユーザーは誤変換報告リストを見て確認できる。

http://www.adaptive-techs.com/dict/errorreport.html

 

 

おわりに

 

上記の辞書修正過程の記述により、全自動は困難であるが、”interruptive”であれば、辞書構築が効率よく、誤変換報告から辞書更新報告までのターンアランドを短くすることは可能であるようだ。

今後は、このようなユーザー参加型半自動辞書構築システムを開発したいと思う。