【参】モーダルJS：読み込み

書籍DB：詳細

スモールデータ解析と機械学習

試し読み

著者藤原幸一著
定価3,520円（本体3,200円＋税）
判型A5
頁296頁
ISBN978-4-274-22778-3
発売日2022/02/19
発行元オーム社

紙の書籍を買う
電子書籍を買う

お問合せ

常備書店一覧

内容紹介
目次
ダウンロード
正誤表
本書の「はじめに」と著者紹介

内容紹介

スモールなデータの解析手法・ノウハウが身につく！

Webデータや画像データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、患者さんの検査データのように倫理的な問題からデータを集めることに制約があったり、あるいはデータの判読が専門家以外では困難で機械学習に利用しにくいデータは、どうしても忘れられがちです。ビッグデータの時代において、収集が難しいために私たちが忘れかけているデータのことをスモールデータとよびます。

スモールデータでは、測定されている変数の数に比べて学習に必要なサンプルが不足していたり、それぞれのクラスのサンプル数が極端に偏っていたりするため、深層学習のようなビッグデータの方法をそのまま適用するのは適当ではなく、異なるアプローチが必要になります。

本書は、スモールデータとはどのようなデータであるのかを具体的に紹介して、スモールデータ解析の基本となる次元削減と回帰分析を説明します。特に部分的最小二乗法（PLS）はスモールデータ解析の大きな武器となるでしょう。そして、機械学習においてモデルの性能向上のために必要な変数（特徴）選択を紹介し、特にクラスタリングに基づいた新しい変数選択手法を説明します。つづいて、不均衡なデータの解析手法と異常検知を紹介して、最後にスモールデータ解析についての筆者の経験に基づいたポイント・考え方を述べました。本書ではPythonプログラムとスモールデータ解析の例題を通じて、読者がスモールデータを有効に解析できるようになるよう工夫しています。

ビッグデータの世界は、もはやデータ量と資本力が支配するレッドオーシャンとなっています。しかし、スモールデータの世界は、まだまだ現場の創意工夫次第でデータから新たな価値を引き出すことのできるブルーオーシャンなのです。みなさんも、この未知の世界に飛び込んでみませんか？

このような方におすすめ

◎製造ラインや医療現場などでデータの解析を行う技術者、研究者
○データサイエンス系の技術者、研究者、学生

第1章　スモールデータとは
1.1　ビッグデータからスモールデータへ
1.2　スモールデータ解析の特徴
1.3　本書の構成

第2章　相関関係と主成分分析
2.1　データの前処理
2.2　共分散と相関関係
2.3　相関関係≠因果関係
2.4　多変数間の相関関係
2.5　主成分分析（PCA）とは
2.6　データの特徴
2.7　第1主成分の導出
2.8　第r主成分の導出
2.9　PCAの数値例
2.10　主成分数の決定
2.11　PCAの行列表現
2.12　PCAと特異値分解

第3章　回帰分析と最小二乗法
3.1　回帰分析とは
3.2　最小二乗法
3.3　回帰係数と相関係数
3.4　最小二乗法の幾何学的意味
3.5　ガウス-マルコフの定理
3.6　最尤法と最小二乗法
3.7　多重共線性の問題
3.8　サンプル数が入力変数の数よりも少ない場合
3.9　擬似逆行列を用いる方法
3.10　主成分回帰（PCR）
3.11　リッジ回帰
3.12　部分的最小二乗法（PLS）
3.13　PLS1モデルの導出
3.14　PLS1モデルのNIPALSアルゴリズム
3.15　重回帰モデルへの変換
3.16　出力変数が複数ある場合（PLS2）
3.17　PLSと固有値問題・特異値分解
3.18　ハイパーパラメータの調整
3.19　回帰モデルの性能評価
3.20　分光分析による物性推定
3.20.1　分光法
3.20.2　ディーゼル燃料の物性推定

第4章　線形回帰モデルにおける入力変数選択
4.1　オッカムの剃刀とモデルの複雑さ
4.2　赤池情報量規準（AIC）
4.3　ステップワイズ法
4.4　Lasso回帰
4.4.1　リッジ回帰に近似する方法
4.4.2　最小角回帰（LARS）
4.5　PLS向けの変数選択手法
4.6　相関関係に基づいた変数クラスタリングによる入力変数選択
4.6.1　クラスタリング
4.6.2　k-平均法
4.6.3　NCスペクトラルクラスタリング（NCSC）
・スペクトラルクラスタリング（SC）
・NC法
4.6.4　NCSCの例題
4.6.5　NCSCを用いた入力変数選択（NCSC-VS）
4.7　NIRスペクトルの検量線入力波長選択

第5章　分類問題と不均衡データ問題
5.1　分類問題とは
5.2　線形判別分析
5.3　線形判別分析とレイリー商
5.4　カットオフの決定
5.5　線形判別分析と最小二乗法
5.6　分類モデルの性能評価
5.7　ROC曲線とAUC
5.8　線形判別分析における不均衡データ問題
5.9　データの不均衡度
5.10　サンプリング手法
5.11　アンダーサンプリング
5.11.1　サンプル選択型アンダーサンプリング
・ランダムアンダーサンプリング（RUS）
・クラスタ基準アンダーサンプリング
・トメクリンク
5.11.2　サンプル生成型アンダーサンプリング
5.11.3　オーバーサンプリング
・SMOTE
・ADASYN
・ボーダーラインSMOTE
5.11.4　アンダーサンプリングとオーバーサンプリングの組み合わせ
5.12　アンサンブル学習
5.13　判別木
5.14　バギングとランダムフォレスト
5.15　ブースティング
5.15.1　AdaBoost
5.16　サンプリング手法とアンサンブル学習の組み合わせ
5.17　不均衡データにおける性能評価
5.18　ケーススタディ
5.18.1　データセットの準備
5.18.2　モデルの学習
5.18.3　モデル学習結果

第6章　異常検知問題
6.1　局所外れ値因子法（LOF）
6.1.1　局所密度
6.1.2　到達可能性距離
6.2　アイソレーションフォレスト
6.3　多変量統計的プロセス管理（MSPC）
6.3.1　USPCとMSPC
6.3.2　T^2統計量とQ統計量
6.3.3　寄与プロットによる異常診断
6.4　オートエンコーダ（AE）
6.5　管理限界の調整
6.6　時系列データの取り扱い
6.7　砂山のパラドックス
6.8　Tennessee Eastmanプロセスの異常検知
6.8.1　TEプロセス
6.8.2　データの前処理
6.9　モデルの学習と異常検知
6.10　異常検知結果
6.10.1　異常診断

第7章　データ収集や解析の心構え
7.1　機械学習の手順
7.2　そもそもデータを使って何をやりたいのか
7.3　PICO
7.4　データの文脈を理解する
7.5　現地現物と三現主義
7.6　現場とのコミュニケーション
7.7　解析データセット構築に責任を持つ
7.8　どうしてもうまくいかないときは

付録
A.1　標本分散と母分散
A.2　LARSアルゴリズム
A.3　Mcut法と固有値問題
A.4　主成分分析と自己符号化器の関係

参考文献
索引

続きを見る

ダウンロード

ここでは、『スモールデータ解析と機械学習』に掲載したプログラムを提供いたします。

本ファイルは、本書をお買い求めになった方のみご利用いただけます。本書をよくお読みのうえ、ご利用ください。また、本ファイルの著作権は、本書の著作者である、藤原幸一氏に帰属します。
本ファイルを利用したことによる直接あるいは間接的な損害に関して、著作者およびオーム社は、いっさいの責任を負いかねます。利用は利用者個人の責任において行ってください。

9784274227783_program.zip（約21KB）

正誤表

正誤表はございません。

本書の「はじめに」と著者紹介

はじめに

昨今は，人工知能（Artificial Intelligence; AI）関係の話題，ニュースをメディアで目にしない日の方が珍しいといってもよいでしょう．このようなAIブームの到来からわずか数年で，世界は大きく変わりました．深層学習の分野はまさに日進月歩であり，State Of the Art，つまりその時点での最高成績が次から次へと更新され，新しいアプリケーションもどんどん登場しています．囲碁のチャンピオンをAIが打ち負かす，本物と見分けがつかない画像をAIが生成する，AIが自然な言葉使いで外国語を翻訳してくれるなど，わずか10年前には想像できなかったでしょう．

このようなブームに沸くAI業界ですが，あえて冷静になって本邦におけるAI業界の現状を改めて振り返ってみるのも悪くはないでしょう．
平成25年（2013年）に「世界最先端IT国家創造宣言について」というドキュメントが閣議決定されました．現状から鑑みるに，政府の掲げたこの宣言には当然AIの利活用についても掲げられていると思われます．実際に，この宣言にはAIという言葉が一箇所だけ出てきます．当該箇所を引用してみましょう．

高品質の農産物を生産する我が国の農業とこれを支える周辺産業において、篤農家の知恵を含む各種データを高度に利活用する「AI（アグリインフォマティクス）農業」の取組を活用した新たなビジネスモデルの構築等により農業の知識産業化を図り、海外にも展開する「Made by Japan農業」を実現する。

世界最先端IT国家創造宣言について

つまり，2013年の段階では，政府の認識はAI = 人工知能ではなく，アグリインフォマティクス（Agri Infomatics）だったのです！

現在のAIブームは，Hintonらによる深層学習を用いたAlexNetが，2012年のILSVRCとよばれる大規模画像識別のチャレンジ（http://image-net.org/challenges/LSVRC/）において圧勝して，注目を浴びたことに始まりました．AlexNetが登場してから，世界最先端IT国家創造宣言が最初に閣議決定されるまでわずか1年足らずであるということを考えると，この宣言にAIについての言及がなかったのも致し方ないとも考えられます．

ところが，この世界最先端IT国家創造宣言は平成25年以降も毎年更新されていたのですが，人工知能という文脈でAIという言葉が登場するのは平成27年になってからで，AIの研究開発推進や普及が謳われるようになったのは3年後の平成28年からでした．文部科学省の掲げる戦略目標でも，ビッグデータというキーワードは以前より登場していたものの，人工知能が戦略目標として明確に取り上げられるのは，同じく平成28年になってからです．

世界知的所有権機関（WIPO）が発行するAI技術のレポートによると，AI関連の特許出願数は2019年時点で日本は第3位とのことです．一見，健闘しているように見えますが，トップのアメリカと第2位の中国での出願数に水をあけられています（https://www.wipo.int/edocs/pubdocs/en/wipo_pub_1055.pdf）．このことを考えると，国としてAI推進を掲げるまでに3年もかかったのは，動きが遅かったと感じます．もっと早期に，国としてAI推進を掲げていれば，と思わずにはいられません．

このAIブームを支えているのは深層学習を含む機械学習技術ですが，その根底にはビッグデータがあります．ビッグデータは2010年前後に登場した言葉ですが，安価に大量のデータを収集できるようになり，それを高速に処理できるコンピュータが登場したため，ニューラルネットワークのような複雑なAIを学習させることが可能になったのだ，と説明されます．たとえば，日々検索サイトに入力されるキーワード，SNSにアップロードされるテキストや写真，みなさんがECサイトで閲覧・購入した商品の情報，蓄積される種々の装置類の運転データ，電子カルテに記録された患者さんの検査データや診断結果……，これらをネットワークを介して効率的に収集して解析することで，高性能なAIが開発できるようになった，と．このようにビッグデータという言葉は，機械学習技術そのものも大切ですが，なによりデータを大量に利用可能であるかが価値となる，ということを説明しています．特にSNSやECサイトでは，ユーザー側が進んでAIの学習用データを提供してくれているわけで，GoogleやAmazonなどのプラットフォーマーが，AI開発においても有利なわけです．

さらに高性能なAI開発にはビッグデータだけではなく，それを処理できる高性能なコンピュータと，実際にデータを解析するデータサイエンティストも必要です．高性能なコンピュータを整備するのも，優秀なデータサイエンティストを雇うのも，資本投下です．AI業界はいわば鉄鋼業や半導体同様に装置産業なのであって，装置産業の王道は設備投資しかありません（装置産業とは，一定以上の生産規模のために巨大な装置が必要な産業のことです）．しかし，30年間経済が停滞し続ける本邦において，新規事業への大規模な設備投資は望めず，ビッグデータもクラウドも優秀なデータサイエンティストを多く抱えているであろうGAFAM（この本を手に取られる方はよくご存じでしょうが，IT業界でビッグ・ファイブとよばれるGoogle（Alphabet），Amazon，Facebook（Meta），Apple，Microsoftの社名の頭文字です）には，もはや追いつけないのではないでしょうか．

もちろん王道はとても大切であり，AI分野の研究開発への投資は着実に続ける必要があります．一方で，私たちは王道だけでは勝てる見込みは少ない，一発逆転はあり得ないという認識を持たなくてはいけません．しかしながら，私たちはビッグデータとは異なる道を選択することもできるのです．

本書では，その異なる道―ビッグデータの対極―スモールデータ解析についてお話しします．

筆者はデータサイエンスを武器として，これまでに化学や鉄鋼，半導体などのさまざまな生産現場の問題解決や，新たな医療機器の開発のための活動を展開してきました．現場で実データ解析に従事していると実感しますが，ビッグなデータを利用できるというのは，必ずしも一般的な状況ではありません．現実には，さまざまな制約によってごく少量のデータしか収集できない，または解析対象にできないという状況が存在しています．たとえば，生産現場では実機を用いた実験は，コストや時間の問題からできるだけ少数の回数に抑えるべきですし，医療現場では倫理的な問題から患者さんから無制限にデータを採取することは許されていません．

スモールデータ解析においては，ビッグデータとは異なるアプローチを取らなければなりません．また，スモールデータ解析では現場に固有の多様なハードルを乗り越える必要があり，GAFAMでさえほしいままにするのは困難でしょう．いくら高性能なコンピュータとデータサイエンティストを抱えていても，それだけでは太刀打ちできない世界があります．そして現場には，このような少量でも，つまりスモールデータからでもなんとか機械学習を活用したいという強いニーズが常に存在しています．

本書は，このような現場のスモールデータ解析へのニーズに応えるために執筆されました．スモールデータ解析のためのさまざまな手法を解説し，それらを現実の問題にどのように適用すればよいのかについてのイメージを持ってもらうために，いくつかのケーススタディを紹介しています．なお，この本では大学初年度の線形代数学と微積分学，確率・統計を学んでいることを前提としていますが，必要な数学的な事柄には説明を加えました．ベクトルや行列などの数式に抵抗感がなければ，すらすらと読めるはずです．

また，特に重要なアルゴリズム・機械学習手法については，理解の助けとなるように，いくつかのPythonのサンプルプログラムも掲載しました（本書に記載のプログラムは，あくまで機械学習アルゴリズムの理解の助けとなることを目的としています．採用するライブラリも大半のプログラムではNumPyやMatplotlibぐらいにして，できる限り本文の数式に沿った素直な書き方になるようにしました．その結果として，Pythonプログラムとしては洗練された書き方ではなく，また必ずしも実用的ではありません．アルゴリズムの理解のために自分の手を動かして，一度は掲載されているプログラムを写経していただきたいですが，実務においては，scikit-learnなどの既存の機械学習ライブラリの使用をおすすめします）．

本書は，特に生産プロセスや病院，実験室などのスモールデータの現場でデータ解析に困っている方に，読んでいただきたいと思っています．きっと，みなさんの抱えているデータ解析についての悩みの解決の糸口が見つかるでしょう．また，いきなり深層学習とそのPythonフレームワークから勉強をスタートして，古典的な機械学習の手法について学習が追いついていない“なんちやってデータサイエンティスト”のみなさんにも，基礎を固めるという意味でおすすめします．その他にも，昨今のAIブームに辟易としている方も，一読すると面白いのではないでしょうか．本書が，みなさんのデータ解析の実務ついての問題解決の一助になれば幸いです．

本書を執筆するにあたり，研究室の学生さん，オーム社の皆さん，カバーイラストを描いていただいた漫画家のおかざき真里先生には大変お世話になりました．心より感謝いたします．

2022年1月
藤原幸一

著者紹介

藤原幸一（ふじわら　こういち）
名古屋大学大学院工学研究科物質プロセス工学専攻・准教授
2004年　京都大学工学部工業化学科卒業
2006年　京都大学大学院工学研究科化学工学専攻修士課程修了
2009年　京都大学博士（工学）取得
2010年　NTT コミュニケーション科学基礎研究所
2012年　京都大学大学院情報学研究科システム科学専攻・助教
2018年より現職．
〈研究分野〉
機械学習・医療AI・生体計測・プロセスシステム工学．他の研究者・エンジニアが扱ったことのない貴重なデータを現場から発掘して，解析することを得意としています．

この商品をシェアする

印刷

月刊誌

ウェブマガジン

高等学校・大学向け教科書

検定教科書

スクール

資格試験

材料セット

解答速報

セミナー