5.クラスタリング手法の確立 (2001年度秋学期U)
最大の難関である序列効果の問題が解決できたが、それに伴ってクラスタリング作業は振り出しに戻る。それならば、ここまでの手法においても実証的な裏づけに乏しかったいくつかの問題点も同時に片付けておきたいところである。
残された問題点とは以下の3点である。
<1>単純な支持度(回答数)によるレイヤー区分でよいのか
<2>各レイヤーのITEM数に明確な根拠がない
<3>アイテム間得点が信頼性に欠けるそして、いずれも解決されるに至った。それぞれの処方箋を以下に示す。
<1>単純な支持度(回答数)によるレイヤー区分でよいのか既述のように、iMapでは従来のような性差や世代差を前提としないため、層化抽出は用いていない。だが、その結果として、iMap.gr.jpのトップページにあるようにUSERの生年分布は1970年代生まれに偏ってしまった。これでは性差・世代差を前提とはしないといっても、年配層や若年層に支持されるITEMが過小評価されることは避けられない。
この問題に対する処方箋として、iMapでは以前から特化係数を用いてきた。わかりやすい例として「水島新司」を取り上げる。
彼の生年・性別分布は上図左のような単なる人数表示では1960年代後半生まれのUSERにそのピークがあるように見える。しかし、これは見せかけの分布なのである。つまり、iMapのUSERにこの世代が多いという前提条件が実状を歪めているのである。
特化係数を用いると上図中央のようになり、さらにその移動平均をとることでスムージングを行うと右のようになる。これにより「水島新司」とは、1960年前半、あるいはそれよりもっと以前に生まれたUSERにおける支持が最も高い。と正しい判断が下されるわけである。以上を参考にすれば、次のような補正方法を適用できる。すなわち、各ITEMの支持度を世代ごとにとり、全世代での平均をとって、それをランキングとみなすのである。
結果は以下の表のようになった。データクリーニング後にも増して、「手塚治虫」や「赤塚不二夫」といった、年配層に広く認知されている漫画家が上位に躍り出たことがわかる。全世代に高い認知度を誇る「藤子・F・不二雄」がクリーニング前に圧倒的な1位を獲得していた「あだち充」を抜いた点は、まさに序列効果の削除と平均支持度の相乗効果による大きな成果と考えられる。
未処理データのランキング クリーニング後のランキング 平均支持度のランキング 順位 ITEM名 USER数 ITEM名 USER数 ITEM名 平均支持度 1あだち充 2162あだち充 1693藤子・F・不二雄 39.01% 2藤子・F・不二雄 1684藤子・F・不二雄 1630あだち充 37.10% 3鳥山明 1636鳥山明 1584鳥山明 35.56% 4一条ゆかり 1581高橋留美子 1400手塚治虫 34.29% 5いがらしゆみこ 1456手塚治虫 1350高橋留美子 31.53% 6高橋留美子 1441一条ゆかり 1336さくらももこ 30.64% 7さくらももこ 1430さくらももこ 1327一条ゆかり 30.23% 8手塚治虫 1384いがらしゆみこ 1198松本零士 28.65% 9秋本治 1199藤子不二雄A 1153藤子不二雄A 27.74% 10藤子不二雄A 1188松本零士 1127いがらしゆみこ 26.39% 11松本零士 1154北条司 1124石ノ森章太郎 25.01% 12北条司 1152モンキー・パンチ 978赤塚不二夫 24.20% 13石ノ森章太郎 1136石ノ森章太郎 951モンキー・パンチ 23.96% 14あさぎり夕 1049秋本治 931ちばてつや 23.43% 15赤塚不二夫 1038美内すずえ 879楳図かずお 23.19% 16楳図かずお 1000ちばてつや 856水島新司 22.85% 17モンキー・パンチ 995あさぎり夕 851北条司 22.82% 18浦沢直樹 982楳図かずお 848秋本治 21.89% 19江口寿史 952浦沢直樹 832美内すずえ 20.94% 20江川達也 926赤塚不二夫 825小林よしのり 20.32%
<2>各レイヤーのITEM数に明確な根拠がない
平均支持度の採用によってITEMランキングが変化し、各レイヤーに含まれるITEMにも入れ替わりが生じる。と、同時になぜ L1=35, L2=65, L3=100, L4=150というITEM数なのかという疑問に対して、漠然としか答えられない現状にも気づかざるを得ない。
ではどのようにすれば論理的なレイヤー区分が可能だろうか。そこで参考となるのが、大き過ぎるものと小さいものとの格差を縮小させる性質のある、対数という考え方である(10を底とした常用対数を考えればわかりやすい。1000⇒3, 100⇒2, 10⇒1である)。
ここでは、自然対数(e(2.71828…)が底)を用いた。平均支持度を自然対数化して、最大のものを基準に分割数を考えれば(対数の最大が10で分割数が5ならば、8・6・4・2 で5つに切れる)レイヤー区分を客観的に説明できるはずである。
分析の中心となるレイヤーをレイヤー3とし、それ以下はオルタナティブの次元だと仮定しているから、オルタナティブの次元にも3つのレイヤーが存在すると仮定すれば、レイヤー数の合計は6となる。
平均支持度の最高が藤子・F・不二雄の3.66388であるから、これを6で割った0.61065ごとにレイヤーを切っていくと、それぞれのレイヤーに含まれるITEM数はL1=18, L2=67, L3=156, L4=208と決まるわけである。
<3>アイテム間得点が信頼性に欠ける
右図のような点数化はあくまで恣意的である。それに加えて、夏休み中のクラスタリングでは、それぞれのクラスターが連結しない参考基準として、アイテム間得点の基準をL1=30, L2=50, L3=70, L4=90と勝手に定めていた。これでは二重の恣意性の介在であり、基準の信頼性を証明するのは非常に難しい。
よって以下のように考える。
まず、同一レイヤー内におけるすべての組み合わせ数は
(アイテム数×アイテム数) − アイテム数
である(行と列は対称的であるから、これを2で割っても考え方は一緒である)。1度でも近くにプロットされたITEM同士は、右図のように、互いがクロスしたセルに点数が入ることになる。
点数化されなかった組み合わせがほとんどだが、これらをすべて0点と考えれば、以下のような分布図が描ける。
この分布において、上位1%に含まれる高得点のアイテム間得点のみを採用するのである。点数化の基準は恣意性を介在させてはいるが、少なくとも下位99%からも漏れるような、極めて強い関連性を示すITEM同士には、有意な関連性があると判断せざるを得ない、とするわけである。
レイヤーの含むITEM数は違うから、その影響によって切れ目となる得点基準も異なる。結果は
レイヤー1:38(次点の27点で99.35%)
レイヤー2:63(次点の61点で99.05% )
レイヤー3:75(次点の74点で99.01% )
レイヤー4:77(次点の76点で99.04% )であった。
ただし、下位のレイヤーになると、アイテム間得点が微妙に足りずにクラスタリングから漏れるケースが増えてくる。よって、下位のレイヤーでは作成されたクラスターをITEMと同等に扱うことで再度得点化を繰り返すこととした。
組み合わせ数は二乗の考え方であるから、その数はITEM数の増加によって指数関数的に増加する。このことは対数の考え方の裏返しなのだから、繰り返し数もそれに応じて、L1=1, L2=2, L3=3, L4=4 とすればよい。
以上で「文化」(趣味)面におけるクラスタリングの手法はほぼ確立された。