2013年度森基金 研究成果報告書

【テーマ】音楽・画像メディアの感性的統合システムの構築と応用

所属:慶應義塾大学院 政策・メディア研究科
修士課程1年 CIコース
学籍番号:81325021 ログイン名:hrkfukai
氏名:深井晴香

■研究概要
 本研究では、異種メディア間の特徴量変換を行うことで、複数メディアを統合して扱うプラットフォーム技術を提案する。
 メディアは、音楽や動画のように時間による変化を伴うストーリーメディアと、画像や香りのように時間によって変化しないノンストーリーメディアの2種類に分けられる。これまでメディア装飾の分野では、メディアデータはストーリーメディア・ノンストーリーメディアに関わらず1つのデータにつき1つの意味を持つと捉えられており、時間軸に沿った変化は考慮されてこなかった。しかし、1つのメディアが持つ情報量は、ストーリーの有無によって大きく異なる。ストーリーメディアを単体としてとらえ、1メディアからの情報を抽出することももちろん可能だ。しかし、ストーリーメディアを任意の単位時間で分割することで、複数のノンストーリーメディアと同等の情報を抽出することができるようになる。単位時間の区切り方にも、時間を等間隔で分割する他に、音楽でいえば和音、小節といった意味をもつ単位による分割など、複数の種類が存在する。このように、1つのストーリーメディアに無数のノンストーリーメディアと等価の情報量を付与する「時間による変化」を考慮することは、マルチメディアをより幅広く、かつ有効に活用する上で非常に重要な意味を持つ。
  
 本研究の特徴は2点ある。1点目は、ストーリーを伴うメディアデータを対象とした特徴量変換を行うことだ。ストーリーメディアを時間、または意味の単位によって分割し、その区間ごとに特徴量を抽出する。こうして得られたストーリーメディアの特徴量を、異種のノンストーリーメディアの特徴量に変換し、相関量計量を行う。2点目は、個性のフィードバックと共通性のフィードバックという2系統のフィードバックによるラーニングモジュールを有する点である。特徴量変換では、特徴量変換に使うマトリクスを変更することで、全く異なる結果が得られる。ユーザーが個人ならば、その個人に特化して最適な結果が得られるよう個人化されたマトリクスが必要になる。また、ユーザーが複数人ならば、その集合に対して最適化されるよう、集合の共通性を重視した結果が得られるべきである。ユーザーの嗜好、人数による制限なく本研究が提案するプラットフォームを活用できるようにするために、Personal指向とSocial指向という両方の特徴量変換を行う。
 本研究が提案するクロスメディア統合プラットフォームは、(1)感性的メタデータ抽出モジュール、(2)特徴量変換モジュール、(3)特徴量変換ラーニングモジュール、(4)クロスメディア装飾生成モジュールの、4モジュールから構成される。このプラットフォームでメディア装飾を実行するには、次の手順を踏むことになる。異種マルチメディアデータベースから、装飾されるメディアデータ(以降、被装飾メディアデータ)と、その装飾に用いるメディアデータ(以降、装飾メディアデータ)の感性的メタデータを抽出する。次に、特徴量変換モジュールにて、装飾メディアデータのメタデータを、被装飾メディアデータの特徴量に変換する。この特徴量変換は、メタデータと予め用意しておいた特徴量変換マトリクスの内積計算によって求める。こうして被装飾メディアデータと装飾メディアデータの特徴量の次元がそろったので、クロスメディア装飾生成モジュールで相関量計量を行い、その結果をもとにメディア装飾作品を生成する。この装飾作品を鑑賞したユーザーからのフィードバックを受け、得られたログを記録・保存する。フィードバックログを用いて特徴量変換マトリクスのラーニングを行い、よりユーザーの要求に適した特徴量変換を可能にする。


■活動報告
 まず、本研究ではPersonal指向の特徴量変換をもとにPersonal Spaceのメディア装飾の実現を目指す。そのために、音楽要素に対して感性的に相関の高い異種メディアを設定し、可視化を行うシステムを構築する。楽曲分析を行って得られる音楽特徴量を様々な異種メディアに応じて特徴量変換することで、その値を可視化時の各種パラメータとして用いることに決定した。異種メディアとして画像を設定した場合を例にとると、音楽データと画像データの感性的相関を計量する時には2種類の方法が考えられる。1つ目はVerbal Approachである。これは、各メディアデータから物理特徴量を抽出し、心理学の研究成果をもとに物理特徴量を印象語特徴量へ変換してから、その結果同士で相関量を計量するものだ。相関量計量は言語レイヤーで行われる。各メディアデータを示す印象語は心理学成果によって異なるため、それぞれの印象語の相関は、辞書を用いて定義することが可能だ。2つ目は、Non-Verbal Approachである。これは、各メディアデータから抽出した物理特徴量同士で、相関量を計量する。どちらの手法を使っても、メディア装飾システムの実現は可能である。しかし、本システムではユーザーからのフィードバックを特徴量変換マトリクスに反映させることで、個人化・最適化を行う。印象語を介さずに相関量計量を行うNon-Verbal Approachの方が、よりダイレクトにユーザーからのフィードバックが特徴量変換結果に反映されることになる。よって、本システムではNon-Verbal Approachを採用した。
 
 音楽の物理特徴量は、Key・Tempo・Pitch・Rhythm・Harmony・Melodyの6要素で表すことができる。また、Keyとは調性のことであり、Krumhansl-Schmuckleアルゴリズムを用いて分析を行うことも可能である。長調12種、短調12種の合計24種が存在し、調性は1曲の中でも演奏時間に伴って変化し、小節が変わるところで切り替わることがある。音楽を聞いて人間が受ける印象は、調性に大きく影響を受けることが既存の研究成果から判明している。各調の関係性は、二重円状に配置することで表現できる。画像の物理特徴量は、色彩が占める面積比で表すことができる。色が人に与える印象は、マンセル130色で表現することが可能とされている。画像内の1ピクセルごとが持つ色情報を130色にクラスタリングし、各色が画像内で占める割合を求めればよい。
  
 楽曲メディアデータの装飾には、楽曲要素にオブジェクトと動きの各要素を紐付けて楽曲の時系列に伴う変化を表現する楽曲可視化手法が考えられる。たとえば、Key・Pitch・Harmonyから色相・明度・彩度、Rhythm・Tempo・音量・ビートからオブジェクトの動き、Melodyから対象オブジェクト、音色(使用楽器)から対象オブジェクトの素材感を決定する、といった実装である。楽曲要素と紐づけるメディアを変更すれば、異なるメディア装飾を生成する応用も可能になる。現在は、上記の楽曲可視化システムの実装を進めている。OpenGLライブラリを利用したJavaアプリケーションとして、実装している。まず、オブジェクトが特定のパターンで動き、曲の進行に応じて配色が自動で変化するアプリケーションを完成させることを目指す。時間経過にあわせて動く正弦波を表示し、その配色や振幅を変える3Dグラフィックの生成に成功した。
 また、Personal Spaceのメディア装飾システムは、個々のユーザーに対して個人化された特徴量変換マトリクスを必要とする。Personal指向の特徴量変換マトリクスは、ユーザー個人の感性をダイレクトに再現する必要があるため、ユーザーごとに特徴量変換マトリクスを用意することになる。それに対して、Social指向特徴量変換マトリクスは、複数人に対して共通の感性を表現する特徴量変換マトリクスである。Personal指向特徴量変換マトリクスとは異なり、基準となる特徴量変換マトリクスが必要になる。心理学的成果をもとに作成した特徴量変換マトリクスを基準として、それに対してフィードバック結果を反映させる必要がある。そのため、個人ユーザー向けのメディア装飾を行う前に、あらかじめ個々のユーザーの感性傾向を反映した特徴量変換マトリクスを生成するべきである。そこで、調性と色彩の特徴量変換マトリクスを、個々のユーザーの感性にあわせて自動で生成するシステムを考案した。システムの実装には、JavaScriptとHTML5を使用した。本システムは、ユーザーに楽曲(指定24曲)の印象に合致する色を回答してもらうものである。まず楽曲を被験者に聞いてもらい、その後色相環の中から曲の印象に合致する色を自由選択してもらうという方式をとった。使用した楽曲の選定は、作曲者が同一かつ、一定の調性を意識して作られた曲であることを基準に行い、平均律クラヴィーアに決定した。平均律クラヴィーアは、調ごとに楽曲が作成されており、本システムに適している。本システムのスクリーンショットを以下に示す。 このシステムによって、各調性に対してユーザーの感性に合致した色彩のRGB値を得る事ができる。得られたRGB値から、マンセル130色それぞれとの関係性の近さを計量し、それをもとに調性・色彩間特徴調変換マトリクスを生成する。


 次に、Public Spaceのメディア装飾システムについて述べる。Public Spaceのメディア装飾システムとして、センサを用いた空間印象判断アプリケーションを考案した。本アプリケーションは、公共屋内空間の状況のセンシングを行い、得られたストリーミングデータを用いた空間の印象を判断する。出力結果をもとに、マルチメディアデータを用いて必要な部屋の装飾を行うことで、空間印象を意図したものに変えることが可能になる。マルチメディア装飾によって快適な屋内環境を作ることができたら、これまで空調調節に必要としていた分の電力消費を減らすことにも繋がる。センシングの対象空間は、駅、電車内、会社、会議室などの公共屋内空間とする。測定項目は、気温、湿度、照度を想定している。
 本システムは、Tampere University of TechnologyにてHannu Jaakkola先生の下で実装、実験を行う。Hannu Jaakkola先生はSoftware Engineeringの専門家であり、センサとクロスメディア統合プラットフォームを融合した新しいシステムの実装を行うのに適した環境であるといえる。本システムは、私が提案するクロスメディア統合プラットフォームの中で、Public Spaceのメディア装飾システムとして位置づけることができる。センサを用いた空間印象判断アプリケーションの概要を、下図に示す。
 データとは実データと感性データ、または連続データと非連続データというように分類することができる。非連続データについては、実データとの関連性も感性データとの関連性もこれまで数多くの研究が行われてきた。連続データについても、実データとの関連性については近年注目を集めており研究が進められている。しかし、連続データと感性データとの関連性についての研究は行われていない。本システムはこの室内環境センサデータという連続データと、音楽や画像マルチメディアデータから得られる感性データの関連性を扱う研究である。
 本アプリケーションでは、実データから感性データへの変換技術を用いて、得られたセンシングデータから対象空間の印象を判断する。さらに、空間印象を示す語とマルチメディアデータセット間で感性的相関量計量を行い、高い相関を示すマルチメディアデータを決定し対象空間の装飾に活用する。本アプリケーションは、実空間でセンシングしたデータをサイバー空間でプロセッシングし、その結果で実空間へのアクチュエーションを行うサイバーフィジカルシステムの1つである。本システムの構築に用いるセンサーデバイスの検討と選定を行った。開発コストを低く抑えられることが見込めるJavascript+HTML5による制御が可能なセンサーデバイスとして、Android搭載タブレット(Nexus 7)と、各種センサを搭載したBeagleBone Blackを用いる。まず、各種センサからのデータ取得を行うプログラムの実装に着手した。Androidタブレットに搭載されている照度センサの値を、Javascript+HTML5で取得し表示することに成功した。次に、Beagle Bone Blackを用いたセンサ制御について情報収集、実装を開始した。現在実装中で、2/22〜28には実験を行い、その結果から再度設計検討を進め、3月上旬に実装完了を目標としている。


 メディアは、音楽や動画のように時間による変化を伴う連続的メディアと、画像や香りのように時間によって変化しない非連続メディアの2種類に分けられる。これまでメディア装飾の分野では、時間軸に沿った変化は考慮されてこなかった。本研究においては、連続性をもつ1つのメディアデータに、連続性をもたないメディアデータ複数と等価の情報量を付与する時間による変化に着目し、マルチメディアをより幅広く、有効に活用するシステムを構築する。また、ユーザーの嗜好、人数による制限なく本研究が提案するシステムを活用できるようにするために、Personal指向とSocial指向という両方の特徴量変換を行う。本研究によって、異種メディア間の相関量計量をもとに、非連続メディアを使った連続メディアの装飾を行うことが可能になる。連続メディアデータを対象とした特徴量変換技術は、メディア装飾だけでなく、時間軸・連続性をもつ環境ストリームデータや、マストランザクションデータの分析へ応用することも可能である。時間軸を持つデータの特徴量変換は、メディア装飾にも環境データ分析にも使える本質的な技術である。環境負荷の低減と快適さの維持の両立を図るべく、メディア装飾によって人間にとって快適な環境空間を創出する。

■今後の展望
 楽曲可視化システムについては、本アプリケーションを用いたユーザーテストを実施し、SynchronizationのEssentialなポイントについて分析を行うことを予定している。また、調性・色彩間特徴量変換マトリクス生成システムを用いた実験も並行して行う。実際にユーザーにシステムを使ってもらうことで、特徴量変換マトリクスを生成し、得られた特徴量変換マトリクスを用いて楽曲の感性的可視化を行う。鑑賞後は、各ユーザーに対してアンケート調査を行い、何回のフィードバックによって自分の感性に合致する可視化が行われるようになったかを測定する。
 空間印象判断アプリケーションについては、室内と屋外のデータを取得することを予定している。University of consortium of Poriキャンパス内で実験に適した場所を調査中である。来学期には、Tampere University of Technologyにて実装したシステムを使って日本でも実験を行い、結果の比較を行う。さらに"得られた空間印象と相関の高いマルチメディアデータを提供する"部分の実装、実験を行う。8、9月には、再度Tampere University of Technologyにて完成した本システムを用いた実験を行う予定である。


[参考文献]
S. Kobayashi, The aim and method of the color image scale. Color Research & Application, 1981. 6(2): p. 93-107.
S. Kobayashi, "Color Image Scale". Oxford University Press, 1992.
D.Temperley. The Cognition of Basic Musical Structures, MIT Press, ISBN-13: 978-0-262-70105-1, 2001.
D.Temperley. Music And Probability, MIT Press, ISBN- 13:978-0-262-20166-7, 2007.
K.Kijima, Structure and Analysis of Music, Ongakunotomo-sha, 1980, (In Japanese).
C.L.Krumhansl. Cognitive foundations of musical pitch. Oxford University Press, 1990.
S. Kurabayashi and Y. Kiyoki: "MediaMatrix: A Video Stream Retrieval System with Mechanisms for Mining Contexts of Query Examples," In Proceedings of the 15th International Conference on Database Systems for Advanced Applications, pp.452-455, 2010.
S. Kurabayashi, T. Ueno, and Y. Kiyoki: "A Context-Based Whole Video Retrieval System with Dynamic Video Stream Analysis Mechanisms," In Proceedings of the 11th IEEE International Symposium on Multimedia, pp.505-510, 2009.
Asako Ijichi, Yasushi Kiyoki: "A Kansei Metadata Generation Method for Music Data Dealing with Dramatic Interpretation ," Information Modelling and Knowledg Bases, XVI, 170-182 (2004).
Asako Ijichi, Yasushi Kiyoki: "An Automatic Metadata Generation Method for Music Retrieval-by-Impression Dealing with Impression-Transition," Proceedings of the seventh IASTED international conference on Internet and Multimedia System and Applications, 281-288 (2003).
Kotani, T. , Kiyoki, Y. and Kitagawa, T.: "Metadata Extraction Method for Static Images Dealing with Color Information and Apply it's Application to a Semantic Associative Search, the 9th Data Engineering Workshop, Collected Papers of The Institute of Electronics, Information and Communication Engineers(1998)
Takashi Kitagawa, Yauashi Kiyoki:"Fundamental framework for media data retrieval system using media-lexico transformation operator,"Information Modelling and Knowledg Bases, 12, 316-326 (2001). [13]. Yasushi Kiyoki, Takashi Kitagawa, Takanari Hayama : "A metadatabase system for semantic image search by a mathematical model of meaning," ACM SIGMOD Record, 23, 34-41 (1994).
長田典子, 岩井大輔, 津田学, 和氣早苗, 井口征士, "音と色のノンバーバルマッピング –色聴保持者のマッピング抽出とその応用–," 電子情報通信学会論文誌 A Vol. J86-A No.11 pp.1219-1230 2003年11月
D. Cai, S. Goto, T.Shinohara, N.Nagata, J.Kurumisawa, and A.Fukumoto, "Synesthetic Color Scheme in Fantasia," SIGGRAPH 2010, Los Angeles, California, July 25-29 2010