2015年度 森泰吉郎記念研究振興基金 成果報告書
トピックモデルを用いた自由記述アンケートの要約
政策・メディア研究科 修士課程2年 大田 祐輔
研究の背景
近年,企業や教育機関など様々な場面でアンケートが実施されている。最近では、Googleフォームなど,インターネットを通じたアンケートも実施されている。アンケートには,選択式アンケートと自由記述式アンケートに2種類が存在する。
選択式アンケートは,「1.良い」「2.悪い」というような事前にアンケート実施者が選択肢を考えたもので,アンケートの結果を定量的に分析することができる。一方,自由記述アンケートは,「保育園に入れないのでもっと保育園を増やしてほしい」というように回答者から枠にとらわれない自由な意見を得られることができ,選択式アンケートに比べて,回答者から選択式アンケートの選択肢に含まれない内容や、より具体的な意見が得られることが多い。しかし,自由記述式アンケートの分析には,自然言語処理が必要なことから,選択式アンケートに比べて,分析者に多大な負担と手間がかかってしまう。そこで,本研究ではトピックモデルを用いて自由記述アンケートの意見を自動的に要約する手法を提案する。
研究の目的
本研究の目的は,トピックモデルを用いて自由記述アンケートを自動的に要約することである。本研究における自由記述アンケートの要約とは,「全体の意見を少ない意見で網羅するために,いくつかの代表的な意見をピックアップする」ことを表す。この方法は,分析者を支援する1つの有効的な手段であると考える。要約のイメージを図1に示す。図1は,本研究の評価実験に利用する日本財団の子育てに関する悩みや不安が記述された自由記述アンケート[3]を2次元に可視化したものである。アンケートの要約とは,例えば,赤丸の範囲をカバーする代表的な意見を1つピックアップし,その処理をすべてのエリアに対して行い,アンケートの意見全体を網羅する。このように代表的な意見をいくつかピックアップし,アンケートの意見全体を網羅することが本研究の目的であり,そのピックアップした意見集合(図2)を本研究では要約と呼ぶ。
図1 要約のイメージ
|
- 保育園に入りやすくしてほしい 子育ての情報を知りたい。
- もっとイベントや交流会があると嬉しい。
- 横浜菊名 JR 駅にエレベーターがほしい!
- 出産の予約を近くの病院でとれない 教育費を安くしてほしい。
- 出産費の補助が増えたら有難いです。
- 育休の取得しやすい環境を作って欲しい。
- 室内で遊べる場所をもっと増やしてほしい!
図2 要約文
|
提案手法
本研究では、トピックモデルを用いた自由記述アンケート要約手法を提案する。提案手法は、「単独トピックに着目した手法」と「複数トピックに着目した手法」がある。単独トピックに着目した手法は、各トピックの代表的な意見を選ぶ手法である。複数トピックに着目した手法は、トピック比率が似ている意見の中から代表的な意見を選ぶ手法である。
図3 提案手法1の要約
|
図4 提案手法2の要約
|
評価実験
評価実験は、テキスト自動要約の研究でよく利用されるROUGEを用いて、人間が作成した正解要約とシステムが生成した要約の類似度で評価することとした。その際、単語の網羅性(再現率)だけでなく、同じ単語が2回以上含まないことや、無駄な単語を含まないといった適合率も評価に含め、F値で評価することにした。データセットは、日本財団の母親の子育てに関する悩みや不安が書かれた自由記述アンケート[4を用いた。正解要約の作成には、2015年9月にワークショップを開催し、3地域(札幌、品川、沖縄の正解要約の作成を行った。実験結果から提案手法2が効果的であることが分かった。
手法 | F値 | F値が最大の際の意見数 |
既存手法 | 0.358 | 38件 |
提案手法1 | 0.280 | 9件 |
提案手法2 | 0.423 | 7件 |
表1 データセット札幌の実験結果
手法 | F値 | F値が最大の際の意見数 |
既存手法 | 0.271 | 13件 |
提案手法1 | 0.231 | 7件 |
提案手法2 | 0.306 | 6.6件 |
表2 データセット品川の実験結果
手法 | F値 | F値が最大の際の意見数 |
既存手法 | 0.385 | 31件 |
提案手法1 | 0.410 | 8件 |
提案手法2 | 0.486 | 12.8件 |
表3 データセット沖縄の実験結果
自由記述アンケート要約システムの開発
提案手法を誰でも利用できるようにWebアプリケーションを開発した。本システムは、分析者の支援を目的とするため
2つの要約機能を実装している。1つ目は,提案手法1の単独トピックに着目した要約機能である。2つ目は、提案手法2 の複数トピックに着目した要約機能である。この2つの要約機能により,大量のデータからどのようなトピックがあるのか俯瞰できる。
図5 システムのホーム画面
|
図6 システムの構成
|
結論
本研究では,自由記述アンケートの意見を要約することを目的とし,トピックモデルを用いた2つの要約手法を提案した。1つ目は,トピックごとに代表的な意見を選択する手法,2つ目は,既存手法を改良し,複数トピックを考慮した手法である。評価実験では,日本財団の母親の子育てに関する悩みや不安が記述された自由記述アンケートを用いて,ワークショップに人間が正解要約を作成し,提案手法が自動的に生成した要約がどの程度正解要約に近いか,ROUGEによって評価したところ,既存手法よりも効果的であることが分かった。
参考文献
[1]DavidM. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet alloca- tion. J. Mach. Learn. Res., Vol. 3, pp. 993–1022, March 2003.
[2] 奥村学, 佐藤一誠. トピックモデルによる統計的潜在意味解析. コロナ社, 2015.
[3] 奥村学, 難波英嗣. テキスト自動要約. オーム社, 2005.
[4] 日本財団. ママの笑顔を増やすプロジェクト ポストツリー. http://mamapro. jp/posttree/.
[5] 岩田具治. トピックモデル. 講談社, 2015.
[6] 渡辺智幸, 後藤正幸, 石田崇, 平澤茂一. 情報検索技術を用いたアンケートデー タの分析手法に関する研究. 日本経営工学会春季研究大会予稿集, pp. 126–127, 2006.
[7] Chin-Yew Lin. Rouge:a package for automatic evaluation of summaries. In Proceedings of the ACL-04 Workshop: Text Summarization Branches Out, pp. 74–81, 2004.