MORI-GRANT 1999 report

1999年度森泰吉記念研究振興基金 修士課程研究助成金の報告書

研究課題名:

連続メディアデータを対象とした意味的連想検索システムの実現 

氏名: 政策メディア研究科 修士2年 
ノーベルコンピューティングプロジェクト所属 佐藤優美子(yumiko@sfc.keio.ac.jp)


1. 研究概要

動画像や音楽データなどの連続メディアのデータベース化が進み、 検索者の要求を満たす柔軟な検索機構の実現が重要な課題となっている。本研究では、印象や内容 の時間的な変化を文脈(CONTEXT)として与えることによって、 連続メディアデータの意味を特定する意味的連想検索システムを提案する。 本提案システムの特徴は次のとおりである。
第一の特徴は,連続メディアデータの構成要素の粒度の違いを考慮した検索を行うために, データの階層構造化とそれを用いた検索対象粒度の選択を行う点にある. 文脈や状況の変化に応じた意味的連想検索は,階層構造を任意の高さの階層を構成する ノード(シーングループ)群を対象として行われる. 第二の特徴として,時間軸に沿って表現された文脈に応じた対象データの意味 の計量は、意味の数学モデルによる意味的連想画像検索方式 の適用によって行う.意味の数学モデルは、 データ間の意味的な関連を文脈や状況に応じて動的に計量し, 文脈によってデータの類似性を多義性を考慮できる. そのため,データに対する印象のような多義的な情報による検索に対しても 適切な情報の抽出が可能である.
本研究では,提案方式基づく実験システムを構築し,それを用いた実験により, 提案方式の実現可能性,および有効性を示した.

2. 背景・目的 

近年、放送番組の経済的価値、記録的価値、さらには文化的価値に対する認識が高まり、 その保存、活用の重要性が指摘されるようになった。放送事業者も、それぞれの社内にライブラリーを設置し 番組の2次的利用の推進を図っている[3]。 このような放送映像や音 楽情報などの連続メディアデータは、人間の知的活動の成果として、収集、保存,利 用の 要望がある。しかし、連続メディアデータを対象とした内容検索を実現する一般的な方法 は確立されておらず、 過去の膨大な情報を活用できないという問題がある。  ここで、連続メディアデータとは、時間軸に沿って表 現さ れるメディアデータの総称と定義する。連続メディアデータに対する内容検索の方法には、 (A)直接的検索と,(B)間接的検索が存在する。 前者は、メディアデータ自体を対象として、 出現するオブジェクト(人物など)の輪郭や動きの軌跡などのデータ内部の部分的な情報に着目した検索をさ す。 また、後者は、 あらかじめ抽出しておいてデータの特徴によってデータを定義する"メタデータ" を介して、 間接的にメディアデータへの検索を行う方法である。 後者の間接的な検索は、比較対象となる 情報の大きさ・粒度の違いによって、さらに以下の3つに分別される。
(B-1) 1つの連続メディアデータ全体に通じるテーマ・ジャンル,印象による検索。
(例)怖い話、コメディ等
(B-2) 連続メディアデータを構成する1部分(1シーン※)を抽出する検索
   (例)ハッピーな印象を表現したシーン、犬がほえるシーン等。
(B-3) 複数のシーンにわたって表現される内容の展開や印象の変化を対象としたシーン     
(例)表現される印象が、つらいから幸福へと移り変わる部分
ただし、ここでシーンとは、連続メディアデータの中で、客観的尺度によって区切られた 部分に対応する1単 位をさす。 客観的なシーンの区切りの発見方法として、映像データの場合、色情報の変化や、カメラワークの変化を手が かりに 行う方法が提案されている[長坂92]。

現状の映像ライブラリーにおいては、 (B-1)に分類されるようなメディアデータ全体 を通してのテーマによる検索や、映像タイトル や製作者の名前などの製作に関する情報に基いた検索が行われている。また、映像などの連続メ ディアデータ ベースの検索に関連する研究は、多く行われているが、これらの研究の多くは、 (B-2)に分類されるような、メディアデータの1部分を抽出する検索を扱うものである。 これに対し、本研究 では、(B-3)に分類される検索、つまり連続メディアデータにおいて、 時間軸に沿って変化する内容の展開に応じた意味的連想検索の実現を目指す。複数のシーンに 渡って内容が変 化・展開することは連続メディアデータ特有の性質である。したがって、本研究は、 今まで実現されていなかった、時間軸をもつメディアでしか表現しきれない情報を検索する 機構方式を提案す る重要な研究課題である。本研究は、検索者によって記述された内容の変化 含むメディアデータをデータベースから抽出する機構である。同じ機構を用いて、検索者が指定 したメディア データの展開と似たような展開を含む情報を抽出する「類似検索」も行うことが可 能である。そのため、本研究の適用分野として、世界中にある過去の放送資源の中から、同じよ うな展開を表 現した放送や物語などを抽出し、その傾向などを分析のための支援ツールなどへの 応用が考えられる。

3 提案方式 

本研究の目的は、連続メディアデータが表現する内容変化を対象とした意味的連想検索を 実現することで ある。 検索例として、印象が“悲しみ”から“幸せ”へと変わる連続メディアデータの抽出が挙げられる。
本方式において、連続メディアデータの内容の時間的な変化は、時間 順序を保った複数のシーンから構成されるシーンの組み合わせによって表現できると定める。 この機構を実現 するために、以下の2つの問題を解決する必要がある.問題点と それぞれに対する本研究のアプローチを示す。

まず第一に、連続メディアデータを構成する要素には、さまざまなデータ粒度が存在するという点である。 そのため、本提案システムにおいて連続メディアデータが表現する内容の変化を扱う際には、対象とする データ粒度の大きさによって、異なる検索結果が求められる。そこで、本提案システムにおいては、シーン間 の 関連をツリー構造によって表現し、ツリー構造の高さを設定することによって、検索時の“データ粒度の設定 機構” を実現する(下図)。

第2の問題として、メディアデータを表現する主観的情報は, 従来のデータベースの検索の対象としてきた数値データや文字列 に比べると表現内容の情報量も大きく,多義的であいまいであり, データの意味の特定が非常に難しいという点である. そのため,文字列に対するパターンマッチングだけでは,適切な検索結果は 得られ難い. データの多義性の多くは,文脈や状況を与えることによって排除 することが可能である. したがって, 印象を用いた検索を効果的に行うには, 文脈や状況を用いて 検索対象データの意味を特定化する意味的連想検索機能が必要になる. この問題に対する解決方式の1つとして,状況や文脈に応じて動的に データ間の意味の解釈を行う意味の数学モデルによる意味的連想画像検索方式 が提案されている[kiyoki94]. さらに,主観的な情報の変化によって連続メディアデータを検索することは, 静止画像検索よりも対象データ表現に多義性があり, データの意味を特定化することは非常に困難になる. 時間軸に沿って表現された文脈や状況に応じた意味解釈を行う機構を必要となる.ともに変化を表現する問い 合わせと検索対象データ間の間の相関量の計量の方法が確立されていない という点がある。 本システムでは、問い合わせと対象データ間の部分的な相関量を意味の数学モデルによる 意味的連想検索機構[Kiyoki94]によって計量を行い、それらを合成することによって全体の相関量(以下、評 価値とよぶ) を求める(下図).

3.1 本検索システムの概要 
本検索システムでは、まず、検索者が、内容の変化を表現した 「文脈列」を入力として与える。一方で、デー タベースに含まれる連続メディアデータから 検索結果の候補となるシーン組を複数生成する。そして、入力さ れた内容の変化と、生成さ れたシーン組との相関を計算し、相関の大きなシーン組を検索結果として出力することによって検索が行われ る[佐藤99,Sato00]。下図に概要を示す。

本提案検索方式は、2つのフェーズから構成される。第一フェーズは、検索候補の生成であり、 このフェーズでデータ粒度の調整が行われる。第2フェーズでは、意味的連想検索が行われる。

3.2 第一フェーズ:検索候補の生成:粒度の調整機能
与えられた問い合わせに応じて,階層構造を用いた 検索対象データ粒度の選択を行い,検索の候補を作成する. ここでは,まず,要求に含まれる内容の変化の回数に応じて, 階層構造を任意の高さで切断する. この操作により, 対象データを要求された数のノード(シーン・グループ)の数 に分割することが可能になる. このときに選択されたノードは,問い合わせに応じた データ粒度をもつデータ単位に対応するものとして扱う. 検索候補は,これらのノードの組み合わせによって作られる.

3.3 第2フェーズ:意味的連想検索システム
第2フェーズでは、 データ間の意味的な関係をその場の状況や文脈に応じて動的に計量する 意味の数学モデルを印象や画像の内容を表現する文脈に 対応した静止画像データを抽出するための画像検索方式[Kiyoki94]を拡張によって行う. 本画像検索方式における検索とは, 問い合わせとして発行された印象語によって表現される文脈と 相関の高いデータ群を抽出することによって行われる. 例えば,『「豪華,かつ,美しい」(``gorgeous, beautiful'')』 という文脈が与えられた場合に, この印象語ともっとも高い静止画像データを検索結果として抽出する. 本画像検索方式において, 文脈を表現する印象語(検索語)と検索対象である静止画像データのメタデータは, ともに直交空間上に配置されている.この直交空間を構成する各軸は, 独立の意味を持つ意味素として設定されている. 問い合わせとして与えられた文脈と検索対象の画像データの間の相関の強さは, 文脈によって定まる直交空間内の部分空間上での各画像データのベクトルの ノルムとして表現される. 本画像検索方式の主な特徴は,文脈による部分空間の選択にある. 文脈は,検索者の着目する画像の内容や印象を表現するものである. この文脈による部分空間選択によって,検索対象となる意味素の 限定を行っており,文脈の認識がなされる. 現在の実装では,約「2の2000乗」通りの部分空間選択が可能で あり,約「2の2000乗」通りの文脈の認識を実現できると考えられる. 意味の数学モデルは,本来,言葉の意味を扱うためのモデルである. ここでは,印象や画像の内容を表現する文脈に対応した画像を 選び出すために拡張した意味的画像検索方式について, 概要を述べる[kiyoki94].

  1. メタデータ空間 MDS の設定
    各データ間の意味的な関係を計算するための基盤となる空間の生成 を行う.m個の基本データが,m行n列の行列 (以下,``データ行列'')の形で与えられる. m個の基本データは,それぞれn個の特徴(feature)によって特徴づけされている. このデータ行列から正規直交空間(以下,``メタデータ空間'')MDSを生成する.
  2. シーンと検索語のn次元ベクトル表現
    1.で用いたn個の特徴と同一の特徴を用いて,個々のシーン,および, 検索者の印象や画像の内容を表現する検索語(文脈語)をそれぞれ n次元ベクトルで表現し,シーンのメタデータと検索語のメタデータを 作成する.
  3. メタデータ空間 MDS上への写像
    n次元ベクトルで表現された3種類のメタデータを メタデータ空間MDS上へ写像する. 各検索語と各シーンは,それぞれ,1つの空間上に点として配置されるため, 検索語とシーン間の動的な関係を空間 MDS上での距離 として計算することが可能になる.
  4. 意味的連想検索
    印象や画像の内容を表現する文脈は,シーンの印象を決定づける 検索語(文脈語)の並びとして与えられる. このとき,メタデータ空間MDSから,文脈語列に対応する部分空間を 選択する.次に,その部分空間上において, 対象となるメディアデータ群の相関量を計算することにより, 指定された文脈と最も関連の深いシーンを選び出すことが可能になる.
本連続メディア検索方式は,時間的な内容の変化を扱うために 意味的連想検索画像検索方式を拡張したものである. 本画像検索方式においては,画像データがメタデータ空間MDSの1点として 表現されるのに対し,連続メディアデータは,シーンに対応する点が複数含まれる ものである. 連続メディア(CM)を構成する各シーンは,画像検索方式における1枚の 静止画像データの情報に対応すると考える.すなわち, 各シーンは,メタデータ空間MDS上の1点として表現される. 問い合わせCQの要素は,問い合わせのt番目のシーンに対する利用者の印象 であり,時間tにおいて選択されるメタデータ空間MDSの部分空間である. 連続メディアへの問い合わせCQは,選択される部分空間の変動となる. 候補を構成するt番目のシーンと問い合わせCQを構成するt番目の文脈に対する値とは, 時刻tの時に選択された部分空間上での,t番目のシーンのノルムの大きさを意味する. 本意味的連想検索方式の拡張である連続メディア検索方式において, 問い合わせと各シーンの組み合わせ(候補)との 意味的な関連の強さを与える``評価値''は,各部分空間における各シーンの相関量を 掛け合わせた値となる。

4. 実験 
本方式の実現可能性を示すために,提案方式に基づき実験システム 構築し,実験を行なった. 実験システムは,SunSPARCシステム上に実現した. 本実験では,2つの英英辞書を参照し,Longman Dictionary of Contemporary English において基本語とされている 2328 単語を、同じ2328 単語 を用いて定義した, 2328 * 2328 のデータ行列を用いて, メタデータ空間(2133次元)を生成した. 検索対象には,五種類の連続メディアデータを用いる. 各連続メディアデータは,表1に示す印象 によって定義されたシーンから構成される.

:
表1 シーンのメタデータ(一部)
シーンID印象語列
Ala01poor lazy sad -happy
Ala02kind1 doubt2 strange expect
Ala03adventure exciting wealthy
Ala04shine1 rich old mysterious
Ala05lonely dark1 anxious rebellious
Ala06 cold1 magical surprise1
: :
Ala14happy cheerful hopeful1 peace
Cin01dirty1 pity1 sorry1 pretty1
Cin02hopeful1 exciting rich desire2
Cin03sad lonely miserable depressed
Cin04magical shine1 splendid
:

図2:データを構成するシーン間の関連構造(ツリー構造) データ``アラジン''のケース:
ツリー構造は、シーンのメタデータ間の意味の相関の強さによる クラスタリングによって生成されている。


上記に対して、文脈シーケンス{(sad,terrible)→(exciting→(happy,forever)}」 を問い合わせとして与える。このときの検索の結果(上位3つ)を表2,3に示す。 同じ問い合わせを与えたときに、シーンレベルの検索の結果は表2、 全体に及ぶ検索の結果は表3のようになった。

 
表2 シーンレベルの検索の結果
順位評価値*1000文脈シーケンス(問い合わせ)
sad,terrible→exciting→happy,forever
11.636Ala12→Ala13→Ala14
 0.245→0.234→0.283
21.5559 Cin01→Cin02→Cin03
 0.291→0.276→0.193
31.51565Ala11→Ala12→Ala13
 0.197→0.282→0.271

表3  全体に渡る変化の検索の結果
順位評価値*1000文脈シーケンス(問い合わせ)
sad,terrible→exciting→happy,forever
11.7025Cin01,02,03→Cin04,05→Cin06,07….,12
  0.290→0.219→0.267
21.0256 Ala01,02→Ala03,04→Ala05,06,….,14
 0.170→0.249→0.241
30.9902 Duc01,02,….,07→Duc08.09→Duc10,11,12
0.1795→0.2232→0.2471

ここでは、ID``Cin''で示されるデータは、 シーンレベルの検索では、第1,2,3シーンの隣接した3つのシーンの組み合わせ が第2位として得られている。 また、このデータは、全体に及ぶ変化を対象とした場合、 階層構造を用いて、3つのシーングループ(第1から第3シーン, 第4から第5シーン, 第6から第12シーンに分類され、このシーングループ分け に対して、第1位として得られている。 これにより、階層構造を適用することによって、 異なる検索対象や範囲やデータ粒度に着目した検索が実現できることが示される。

5. まとめ
印象や内容の時間的な変化のパターンと,連続メディアデータとの相関量を計量による、 意味的連想検索の実 現方式を提案した。 その機能として以下の2機能を提案した。

  1. 時間軸に沿って表現された文脈や状況の変化に応じた意味の計量機能,
  2. 検索パターンに応じて行う階層構造を用いた検索対象データの粒度の選択機能,
そして、実験によって、これらの実現可能性を示した。 今後の展開として、 個々のシーンの影響力の違い(シーンの重み)を検索結果へ反映や 連続メディアデ ータに特有の学習機構の実現, 音楽データなどへの本提案方式の適用が挙げられる。

6. 参考文献

[長坂94] 長坂,田中,``カラービデオ映像における自動索引付け法と物体探索法,''情処学論, Vol.33, No. 4, pp.543-550, Apr. 1992.
[Kiyoki94] Y.Kiyoki, T.Kitagawa and T.Hayama, ``A Metadatabase System for Semantic Image Search by a Mathematical Model of Meaning,'' ACM SIGMOD Record, Vol.23, No.4,pp.34-41,Dec.1994.
[佐藤99] 佐藤優美子 "連続メディアデータ・ベースを 対象とした意味的連想検索機構の実現," 1999年度慶應義塾大学大学院政策・メディア研究科修士論文
[Sato00]Y.Sato, Y.Kiyoki "A Semantic Associative Search Method for Media Data with a Story", IASTED(AI2000)in Innsubruck(Austria),  Feb.2000.