本文へスキップします。

【参】モーダルJS:読み込み
書籍DB:詳細

Excelで学ぶテキストマイニング入門

Excelで学ぶテキストマイニング入門

  • 著者林 俊克
  • 定価2,860円 (本体2,600円+税)
  • 判型B5変
  • 248頁
  • ISBN978-4-274-06493-7
  • 発売日2002/10/23
  • 発行元オーム社

購入はこちら

書籍
常備書店一覧

お問合せ

CS分析やCRM、商品開発といった分野を中心に注目されているテキストマイニングの実践的な入門書

テキストマイニングの基礎と簡単な実践を、商品企画開発に即適用できる事例のExcelによる分析を通して解説する入門書。
テキストマイニングは、元になるテキストを形態素解析してキーワード化し、そのキーワードについて出現頻度をヒストグラム化したり、ポートフォリオを作成したり、キーワード間の因果関係を調べたりすることで、役に立つ有益な情報を抽出する手法である。本書では、フリーの形態素解析システム「茶筌」を利用したテキストの解析と、Excelによる簡単なヒストグラム化や因果関係の分析方法を紹介する。また、これまでのテキストマイニングに欠けている「マイニングを見越したテキストデータの収集」、すなわち「定型自由文」についても、アンケートを使った例を用いて実践的に解説する。さらに、Excelでは困難な、より高度なテキストマイニングの手法について、筆者が開発したテキストマイニングシステムを使って解説する。
序文
第1章 テキストマイニングの基礎
1.1 テキストマイニングとは
1.1.1 データマイニングする位置付け
1.1.2 情報検索に対する位置付け
1.1.3 新しい知識・情報の発見(マイニング)と可視化
1.1.4 テキストマイニングの3要素
1.2 テキストマイニングの背景
1.2.1 研究の側面から
1.2.2 活用の側面から
1.3 市販のテキストマイニングシステム
1.3.1 提供されている機能
1.3.2 提供されているシステム
1.4 Excelで学ぶテキストマイニング
第2章 自由文の手作業によるテキストマイニング
2.1 作業の方針と手順
2.2 テキストのキーワード化
2.3 キーワードの整形
2.4 ヒストグラム化
2.4.1 集計して各キーワードの度数を算出
2.4.2 度数の大きい順にデータを並べ替え
2.4.3 棒グラフを作成
2.5 キーワードは客観的?それに手作業なんてやっていられない!
[コラム]とにかく一度自分でやってみる
第3章 形態素解析によるテキストのキーワード化
3.1 形態素解析システム「茶筌」
3.1.1 「茶筌」について
3.1.2 茶筌のインストールと設定
3.2 作業の方針と手順
3.3 茶筌による形態素解析
3.4 品詞情報を基にキーワードを取り出す
3.5 キーワードの出現頻度をヒストグラム化
第4章 定型自由文のテキストマイニング
4.1 テキストマイニングの新しい考え方
4.1.1 自由文のあいまいさ
4.1.2 テキストから得られる情報の問題点
4.1.3 定型の自由文という考え方
4.2 定義形式の定型自由文アンケートとその分析
4.3 定義形式の定型自由文アンケートのテキストマイニング
4.3.1 作業の方針と手順
4.3.2 定義のカテゴリ化
4.3.3 カテゴリを集計して各定義の度数を算出
4.3.4 度数の大きいデータを並べ替え
4.3.5 棒グラフを作成
4.4 価値ポートフォリオ
4.4.1 顧客価値(Customer Value)とは
4.4.2 価値ポートフォリオの表現
4.4.3 価値ポートフォリオ一覧表の作成
4.4.4 価値ポートフォリオ一覧表の分析
第5章 テキストから因果関係を探る
5.1 テキストの因果関係を捉えたい
5.2 文章完成形式の定型自由文アンケート
5.3 文章完成形式の定型自由文アンケートのテキストマイニング
5.3.1 作業の方針と手順
5.3.2 クロス集計表の作成
5.3.3 クロス集計表の分析
[コラム] 現在のテキストマイニングの課題
第6章 形態素解析による定型自由文のカテゴリ化
6.1 定義形式の定型自由文のカテゴリを自動生成する
6.1.1 茶筌による形態素解析
6.1.2 品詞情報を基にカテゴリ化に必要な語を取り出す
6.1.3 定義のカテゴリ化
6.1.4 価値ポートフォリオの作成と分析
6.2 文章完成形式の定型自由文のカテゴリを自動生成する
6.2.1 茶筌による形態素解析
6.2.2 品詞情報を基にカテゴリ化に必要な語を取り出す
6.2.3 要素のカテゴリ化
6.2.4 クロス集計表の作成
6.2.5 因果関係の分析
第7章 より高度なテキストマイニング
7.1 はじめに
7.2 顧客の潜在ベネフィットを可視化する
7.3 潜在的な価値をランキングする
7.4 プロダクトの顧客満足(CS)を調査する
7.5 CSポテンシャルとプロダクトの強み・弱みの把握
7.6 因果関係を視覚的に理解する
7.7 DEMATELにより間接影響を加味する
7.8 原因度と中心度
7.9 何をもって「高度なテキストマイニング」とするのか?
7.10 今ここにあるテキストデータのマイニング
7.11 より高度な非定型自由文のテキストマイニング
7.11.1 キーワードのヒストグラム
7.11.2 希望・理想表現のヒストグラム
7.11.3 価値ポートフォリオ分析による潜在ニーズの抽出
7.11.4 テキストの要約
7.11.5 論理的関係性の抽出
7.12 実務で使うには ―可視化の重要性
[コラム] 本書をテキストマイニングすると
参考文献
VACASとDIONISOSについて
索引

 ここでは、本書で使用しているExcelのサンプルデータを圧縮したファイル(sample.zip)と、日本語形態素解析システム「茶筌」の Windows 版である ChaSen version 2.1 for Windowsを圧縮したファイル(cha21244.zip)とを提供しています。sample.zip を利用するには、日本語版 Windows 環境が必要です。cha21244.zip を利用するには、日本語版 Windows95 以降の環境が必要です。
 なお「茶筌」については、開発元である奈良先端科学技術大学院大学 情報科学研究科による 公式ホームページ を参照してください。

  • 本ファイルは、本書をよくお読みの上ご利用ください。
  • サンプルデータの著作権は、本書の著作者である、林俊克氏に帰属します。
  • 茶筌の著作権は、奈良先端科学技術大学院大学に属します。また、茶筌に付属する辞書は ICOT Free Software にて開発された辞書を利用したものです。茶筌の利用にあたっては、添付されているマニュアルに記載されている ICOT Free Software の利用条件も確認してください。
  • 本ファイルを利用したことによる直接あるいは間接的な損害に関して、著作者およびオーム社はいっさいの責任を負いかねます。利用は利用者個人の責任において行ってください。また、ソフトウェアの動作・実行環境、操作についての質問には一切お答えすることはできません。

 奈良先端科学技術大学院大学 情報科学研究科の許可を得て、本書の解説で使用したバージョンの茶筌を提供しています(cha21244.zip)。
 最新版については、公式ホームページ から入手してください。

  • cha21244.zip(日本語形態素解析システム「茶筌」Windows版)
  • sample.zip(日本語版Windows用圧縮ファイル)