静止画への文字認識・画像合成によるルビ付与の研究
慶應義塾大学大学院政策・メディア研究科博士課程
鳥原 信一
http://www.sfc.keio.ac.jp/~torihara/
E-mail:torihara@sfc.keio.ac.jp

研究の要旨

メールに画像を添付し送信すると、画像を文字認識、認識されたテキストに対して日本語解析し読みを取得、オリジナルノ画像に読みを画像合成した返信メールが取得できるシステムを構築するものである。

研究の目的

メールにルビを付与することにより、日本語を学習している外国人、小学生、漢字に関する読み書き障害者などに対してAnnotation(解説・支援)することである。これらの方々に情報保障を行う。 ディジタルカメラ付き携帯電話での利用を可能とし、看板・標識の理解へのアクセシビリティを向上させる。いつでも・どこでも読み方が分からない漢字に対してルビを付与することができる。

メディアトランスコーダー技術

メディア・トランスコーダーとは

 インターネットにおいて、メディア(Media:伝達媒体)は、便宜上、テキスト・音声・静止画・動画・他のページへのリンクからなるとする。  これらのメディア間で相互変換することでユーザーの状況に最適なメディアでの情報提示が可能となる。  また、複数のメディアを同時に提示することにより、様々な様態(マルチ・モダリティ)を提供できる。  例えば、弱視の人に、拡大文字と同時に音声で読み上げるといったようにである。 これらの、マルチメディア、マルチ・モダリティでの情報提示を可能とするのがメディア・トランスコーダー(Media Transcoder:メディア変換ソフトウェア)である。 メディア・トランスコーダーは、様々なメディア変換のクラス・ライブラリーからなっている。  このように部品化しておくことにより必要に応じて部品をダイナミックに縦横に組み合わせることで望みのメディアを出力することが可能となるのだ。

メディア・トランスコーダーはどこに位置しているか?★

 メディア・トランスコーダーは、オブジェクト指向言語であるJavaで、サーバーサイド・プログラムとして実現している。  ユーザーのパソコン、携帯電話には一切手を入れない。ブラウザ、メールソフトはそのまま使用できる。プログラムがサーバーで動いているので、携帯電話のように処理能力がそれほど高くなくてもいつでもどこでも高機能なサービスが受けられる。また、サーバーだけで機能の追加、改良が可能である。  メディア・トランスコーダーは、サーバーにあると述べたが、どこに位置しているだろうか?  Webページ閲覧とメールの2つのケースではそれぞれ違ってくる。

1、Webページ閲覧とメディア・トランスコーダーの場合

 ユーザーのブラウザとWWW(World Wide Web:世界に張り巡らされたくもの巣)サーバーとの中間に位置して動作する。  このサーバーはプロキシー(Proxy)サーバー、エージェント(Agent)サーバーと呼ばれる。  どちらも代行サーバーとでも訳すことができる。  それではどのように中間に位置し、代行することが可能となるのだろうか? Webページ閲覧はhttp(hyper type transfer protocol)プロトコルという通信手順によって実現している。html(hyper type markup language)文書をサーバーが蓄えており、ブラウザからの要求で該当のhtml文書をブラウザに送る。  ブラウザはこれを表示している。どこのhtml文書が見たいかはURL(Uniform Resource Locator)で指定する。  例えば、朝日新聞のトップページはhttp://www.asahi.com/index.htmlと指定する。 また、html文書中にも、htmlのタグであるアンカー・タグで参照できるリンクが記述されている。これらのURLをメディア・トランスコーダーのURLに書き換えれば、メディア・トランスコーダーはユーザーのブラウザとWWWサーバーとの中間に位置することが可能となるのである。  ユーザーから要求されたhtml文書をオリジナルのWWWサーバーから取得し、メディア・トランスコーダーで適切なメディアに変換してブラウザに戻せば、あたかも最初からそのようなWebページであったかのように見えるのである。

2、電子メールとメディア・トランスコーダの場合

 メールサーバーはつねに自分のドメイン名(メールアドレスの@の後ろにあるもの)に来たメールを蓄えている。メールサーバーとユーザーのメールソフトとの間でメール受信と送信に関するプロトコルがある。メール受信の場合は、POP3(Post Office Protocol)プロトコルにより受信できる。メール送信は、SMTP(Simple Mail Transfer Protocol)プロトコルによって可能となる。ここでメール転送プログラムのことを説明しておく必要があるだろう。メール転送プログラムは、指定されたAサーバーから特定のメールアカウントのメールを定期的に受信し、指定されたBサーバーの特定のメールアカウントにその受信したメールを送信するものである。  例えば、このようなメール転送プログラムを使用しないで、メールの転送をするとしよう。  メールソフトのPOP3サーバーにAサーバーを指定し、メールアカウントも指定しておく。パスワードを入力してメールを受信する。今度は、SMTPサーバーにBサーバーを指定し、転送先のメールアドレスに送信するであろう。これを自動的に多くのメールアカウントを対象とするのがメール転送プログラムである。  メディア・トランスコーダーは、このメール転送プログラムのメールの受信とメールの送信の中間に位置している。受信したメールの内容を入力としてメディア変換して別のメディア形式にすれば、ユーザーからすると最初からそのようなメールであったと見えるのである。

メディア・トランスコーダーの一例として、どのようにルビを振るのか?★

 Webページ閲覧の場合は、ユーザーとWWWサーバーの中間に、電子メールの場合は、メール受信とメール送信との中間にメディア・トランスコーダーがあると述べた。 メディア・トランスコーダーに制御が渡ってきた時に、Webページの場合は、html文書を解析して、表示するテキスト情報を取り出す。電子メールの場合は、メールヘッダーを解析して、メール本文のテキスト情報を取り出す。 これらのテキストを奈良先端科学大学院大学の「茶筅」という日本語形態素プログラムを用いて漢字の読みを取得する。Html文書の場合は、ルビタグ(ruby tag)を用いてルビを付与する。Htmlタグを含まないテキストの場合は、漢字の右側にカッコ付きででルビを付与するのである。

光学式文字認識ソフトウェア

メディア変換部品としてのOCR メディア・トランスコーダーはメディアからメディアへの変換ソフトウェアの集合(ライブラリー)であることおを述べた。 その一つとしてOCRを組み込んだ。メディア・ドライブのWin Reader Proのフォルダー監視機能を用いることで自動的にOCRを起動し、画像中のテキストを取得することが可能である。

今後の研究課題

静止画像に対して、文字認識を行い、ルビ付与してテキストの形で戻すシステムを構築することができた。実際のサービス(無料)として運用を始めている。

http://www.adaptive-techs.com/

今後は、この研究のテーマである、画像合成してのルビ振りを実現化する。

研究論文:メディア・トランスコーダーを用いた支援技術--Ruby(ルビ,ふりがな)サービスへの適応