学術交流資金報告書2003年度

研究課題名 障害者用英語音声情報処理システムの研究

代表者氏名    石崎 俊
代表者所属      政策・メディア研究科/教授 

研究分担者  鳥原信一(政策・メディア研究科博士課程2年)
     植田那美(政策・メディア研究科修士課程2年)
金子将之(政策・メディア研究科修士課程2年)
樋口敏行(総合政策学部4年)
     中村美代子(SFC研究所所員(訪問))

研究の概要 
WEBなどにおける文書を視覚障害者が効率良く読んで内容を的確に把握するために、健常者が斜め読みするのと同様の機能を英語音声合成システムで実現し、実用的なシステムの構築を目指す.このような斜め聞きシステムの基本システムの構築は既に終了しているため、今年度中に米国とカナダでかねてから交流のある研究グループと共同研究を行い、本システムの英語ネイティブによる聴取実験とそれに基づく改良を行う.

研究の背景
障害者用のコンピュータシステムは、障害の種類や程度に合わせて個別に構築し調整する必要があるため、廉価で使いやすいシステムを障害者に供給することは難しい課題である.また、そのようなシステムの構築には障害者の参加や意見の受け入れが不可欠である.
 視覚障害者のために役立つ補助器具やシステムには多くの種類があり実用化されているが、IT技術が進んだ今日では、電子メールによる情報交換やWEBを用いた情報検索を使いこなすことが基本的な機能として重要であり、もし、これが不十分の場合はデジタルデバイドの対象となる可能性が高い.
 本研究課題である「斜め聞きシステムの構築」はコンピュータシステム上の電子テキストを高速で読み上げるための音声合成システムであり、電子メールやWEBからの検索テキストなどが特に長文の場合に、短時間に効率的に内容を把握できる便利なシステムとなっている.
 このようなシステムでは、発声スピードを単に高速にするのでは不十分で、かえって聞き取り難くすることになる.テキストに含まれる文章の重要な語を強調した発声のメカニズムが必要であり、従来の音声合成システムには見られなかったものである.
 本研究組織のメンバーである鳥原信一君は視覚障害者であって、しかも長期にわたって日本IBMの研究所に勤務した経験のあるIT技術者でもある.鳥原君が開発を進めている「斜め聞き基本システム」は上記のような多くの要因を背景として生まれたもので、本資金によって改良を行なうこと目指している.

研究目的
 視覚障害者のための英語音声合成システム「斜め聞き基本システム」において、読み上げる文書の重要語の抽出と発声時間の制御に関して、英語ネイティブによる聴取実験を行うことによって得られたデータを用いて最適なパラメータの数値を決定し、同時に、米国やカナダの研究者との共同研究として認知的なインタフェースの最新の研究成果を取り入れた改良を行うことを目的とする.

斜め聞きシステムの内容
 斜め聞き基本システムは英語文章を入力としており、英文中の単語の発声スピードを可変にして制御するメカニズムになっている.英語の単語は日本語に比べて子音が多く、音節単位の発声が基本構造になっている.一方、日本語は母音が多くモーラといわれる単位で発声の制御が行われるため、単語における発声スピードの制御は自然さや聞き取りやすさを維持するのが難しい.その意味で、本研究ではまず英語を対象にしたシステムを構築しており、日本語はその次の課題としている.
 文章の発声スピードの制御では、重要な語の発声時間をあまり短くせず、重要でない語の発声時間を短くすることによって全体の発声時間の短縮を図る.語の重要度の計算と、重要度に応じた発声時間の決定が課題である.
 語の重要度は、主語の名詞、目的語の名詞、動詞の他に、重要な助動詞、重要な助詞などに優先的に割り当てることが可能である.これらは構文的な情報として与えられる.また、あらかじめ対象領域における重要語の指定が可能であり、これは意味的な重要度ということが出来る.次の段階の重要度としては、文章中における新旧情報がある.新情報は聞き取り難いためゆっくりと発声し、旧情報は既に知っているので早く発声しても聞き取れる.
 このような重要度の原理と実際の発声時間を対応させるには、ネイティブに早めに発声してもらった音声データを分析すると精度が良い.発声時間は個人差があるので可能ならば複数の人に発声してもらって平均を取ることによってさらに精度の確保を図ることができる.
 また、この「斜め聞き基本システム」の実験音声を使って多くのネイティブに被験者になってもらって聴取実験をおこない、発声スピードだけでなく、音声合成用の様々なパラメータを調整して聞きやすく使いやすいシステムに改良を行う.

実験の内容
 英語を用いる斜め聞きシステムを用いて有効性を検証するために、8種類のパッセージと、聞き取れたかどうかをチェックする問題文を作成した.次に、今年度、米国とカナダで実験を実施するために、3種類のスピードの合成音声を作成した.一つはノーマルスピード、二つ目は主な単語のスピードは早くせず、その他の語のスピードを速める方式、三つ目は二つ目の音声合成と同じ発話時間で全体として一律に早い方式の音声合成とした.海外での実験では被験者数から、4種のパッセージを選んで、それぞれの3種のスピードのデータを用いた.また、問題文はSFCの学生のバイリンガルの者を選んで聴覚提示用のデータを作成した.
2004年2月12日に出国して、2月28日に帰国した.初めの米国ボストンでは、ホリオークコミュニティカレッジ、ロータスケンブリッジなど3箇所で12人の被験者に対して実験を行なった.また、MITメディアラボの石井裕教授とは面談して研究の打ち合わせを行なった.カナダでは、ウィニペグで2箇所8名の被験者で実験し、バンクーバーでは2箇所9名の被験者で実験を行なった.全体で29名の被験者で、正眼者は4名,視覚障害者は25名であった.これらのデータは今後時間をかけて詳細に分析するが、今のところ、斜め聞きの合成音声で有効な聞き取りの結果が見受けられている.
 今年度は、今後の研究の進展に備えて、英語ネイティブの話者に速読を依頼し、5種類の速度の音声データを作成し、各種速度ごとの単語や段落などの発声時間を計測して特徴を調べた.
 今後はこれらのデータに基づいて斜め聞きシステムの改良を行い、視覚障害者にとって実用的なシステムを構築し、障害者のデジタルデバイドを解消することにつなげたい.日常的な電子メールメールやWEB検索文書だけでなく、とくに、米国や欧州には大量の電子化英文データが整備されており安価で手に入れることが可能であるため、それらすべての情報を把握し利用することが出来るようになり、視覚障害者の基本的な能力の格段の向上が見込める.
 また、このような英語用のシステムの開発を通じて、日本語の斜め聞きシステムの構築ためのノウハウが得られ、近い将来に日本語用のシステム開発の見通しが得られる.