2009年度森基金 研究成果報告書

研究課題名:MASを活用したデータマイニング手法の展開

所属プログラム:インターリアリティ
慶応義塾大学 政策・メディア研究科 修士課程1年
川崎照夫 80924422
teruo@sfc.keio.ac.jp


概要

以下の通り、2009年度森基金研究成果報告を行う。
1.研究テーマ
2.分析のアプローチ
3.2009年度の研究成果
4.今後の計画


1. 研究テーマ

本研究では、データマイニングにおいて重要なのは、単に分析結果を出すということではなく、分析対象の背後にある因果関係を理解することだと考える。 このようなことを考えるようになったのは、企業と大学における私の実体験からである。
おおよそ過去10年の間に、リレーショナル・データベースは広く社会に普及し、その副次的な効果として様々な企業で大量のトランザクションデータが蓄積・活用されるようになった。ところが、このようなデータをいくら分析しても、そのデータが生み出されたメカニズムまでを分析の対象とすることはできない。 現在の分析手法では、結果に影響を与える、要因の程度や範囲について、知ることはできないのである。
このことを、ここでは、私が実際に携わったアパレル小売業のデータ分析の事例で説明することにしたい。館内に多数の服飾ブランドのショップを持つ、百貨店をイメージしていただきたい。全ての店舗(館)の女性の購買履歴データを対象として、相関ルールの手法でデータマイニングを行ったところ、服飾ブランドのテイスト、および顧客の年齢を軸とするブランドの構造が明らかになった。結果として、相関ルールの手法が、分析に有効であることを確認できた。次に、個別の店舗(館)を対象とした購買履歴データで、同じ手法を使用して分析を行ったところ、このケースでは、先ほどの事例と異なり、館内のショップのフロア配置が大きな影響を持つことがわかった。つまり、全ての店舗(館)を対象とした購買履歴データでは埋没していた要素であるフロア配置が、1つの店舗(館)だけを取り出したケースでは、強い影響を持つ要素として顕在化したのである。
ところが、現在の分析手法では、フロアの影響は、分析結果として、影響があることがわかるものの、影響の程度や範囲について、知ることはできないのである。この事例に対して、フロア配置の影響の程度や範囲を明らかにしたい、というのが私の問題意識である。


2. 分析のアプローチ

本研究では、当初マルチエージェントシミュレーション(MAS)を使ったアプローチを目指していたが、 この他にも、この問題に有効に対応できそうな手法があることがわかった。 それは、グラフィカルなパス図を使い、複雑な関係性をわかりやすくモデル化することができる、共分散 構造分析(構造方程式モデリング:SEM)である。 この手法では、観測データの背後にある様々な要因の関係を分析することができる。 また、この手法の特長として、直接観測できない要因を、潜在変数として扱うことで推定することが可能である。
マルチエージェントシミュレーションに代えて、共分散構造分析を使うことで、 フロア配置の影響を明らかにする。

図1.フロア配置の影響のパス図(参考)

3. 2009年度の研究成果

相関ルールの指標として、確信度(Confidence)と支持度(Support)が利用されることが多い。 この2つ以外の指標として、下記のような様々な指標が考案されている。

表1.相関ルールで利用可能な各種の指標
指標シヒョウ 定義テイギ
Support supp(Z) = P(Z)
Confidence conf(X -> Y) = supp(X -> Y)/supp(X) = P(X and Y)/P(X) = P(Y | X)
All-confidence all-confidence(Z) = supp(Z) / max(support(z element of Z)) = P(Z) / max(P(z element of Z))
Collective strength C(Z) = (1-v(Z))/(1-E[v(Z)]) * E[v(Z)]/v(Z)
Coverage coverage(X -> Y) = supp(X) = P(X)
Conviction conviction(X -> Y) =(1-supp(Y))/(1-conf(X -> Y)) = P(X)P(not Y)/P(X and not Y)
Leverage leverage(X -> Y) = P(X and Y) - (P(X)P(Y))
Lift lift(X -> Y) = lift(Y -> X) = conf(X -> Y)/supp(Y) = conf(Y -> X)/supp(X) = P(X and Y)/(P(X)P(Y))
Jaccard P(A,B) / P(A)+P(B)-P(A,B)

このうち、「Leverage」と呼ばれる指標について利用を検討した結果、 グラフ表現を工夫することで、Leverageのわかりやすい可視化を行うことができ、 分析対象の全体を俯瞰する視点を手に入れることができた。

図2.Leverageの可視化(参考)

4. 今後の計画

共分散構造分析では、ブートストラップ法や、あるいはマルコフ連鎖モンテカルロ法を用いたベイズ推定を行うことが可能である。 消費者の異質性をそのまま扱うことができる、より高度なこれらの手法を取り入れることで、 現在の成熟した市場におけるマーケティングの問題に取り組んで行く予定である。