今やテキストマイニングは,文章を単語に切り分けて,単語の出現頻度を数えるだけにはとどまりません.
商品やイベントに対するSNS上の意見をポジティブ・ネガティブに分ければ,何が評価されて,どこを改善すべきかが一目瞭然.
政治家の演説のトピックが,時代とともにどう移り変わってきたかを解析すると,社会の変化を見て取ることもできます.
小説の話題展開の流れや,登場人物とキーワードの結びつきも,自動で分析可能です.
文書解析で本当にやりたかったこれらのことは,Rで手軽に実現できます.
テキストマイニング定番書の著者による,次の一歩のためのやさしい手引きです.
[もっと基本的なことから学びたい方は,同著者による「Rによるテキストマイニング入門[第2版](森北出版)」もご覧ください]
〈本書で扱う主な内容〉
●センチメント分析
日本語極性辞書を用いて,単語の極性からテキスト全体がポジティブかネガティブか判断.
●単語分散表現
単語の頻度だけでなく,出現位置に注目し,単語どうしの意味の関連性を数値化.
●機械学習,ディープラーニング
機械学習を用いて,より高度な解析も実現.Pythonを前提とした訓練済みモデルやディープラーニングのフレームワークも,RStudioから簡単に利用可能.