内容紹介
生成AIを使った動画解析の基礎から実践までを説明
本書は、生成AIを使った動画解析の基礎から実践までを、フルスクラッチで説明した書籍です。読者自ら、Pythonを使って簡単な動画解析プログラムが作成できるよう、生成AIを使った動画解析のしくみから具体的なプログラムのサンプルコードまでを1冊にまとめています。
これまでに収集した未処理の動画データを活用して有用な結果を得たい方、動画解析を使ってこれまでにないサービスを実現したい方におすすめの書籍です。
このような方におすすめ
AI、機械学習の研究者・実務者、および学生
広くICTの技術者・実務者、および学生
目次
主要目次
第1章 生成AIとヒューマンセンシング
第2章 人間を対象とした解析
第3章 実行環境の準備と画像解析モデルの基礎
第4章 コンピュータヴィジョン
第5章 パイプライン導入
第6章 ヒューマンセンシング
第7章 LLMチュートリアル
第8章 マルチモーダル技術の基礎
第9章 ヒューマンセンシングと生成AIの融合
詳細目次
第1章 生成AIとヒューマンセンシング
1.1 ヒューマンセンシング
1.2 ヒューマンセンシング技術の類型
1.2.1 主観評価
1.2.2 生理評価
1.2.3 行動評価
1.3 深層学習による画像解析とヒューマンセンシング
1.4 デジタルトランスフォーメーション
1.5 ヒューマンセンシングAIの特長
第2章 人間を対象とした解析
2.1 可能性
2.1.1 活用されていない大量の映像データ
2.1.2 PoC
2.2 注意点
2.2.1 解析対象者への配慮
2.2.2 プライバシーへの配慮
2.2.3 倫理的な問題
2.3 生成AIとヒューマンセンシング
2.4 まとめ
第3章 実行環境の準備と画像解析モデルの基礎
3.1 画像解析モデルの実行環境
3.1.1 ハードウェア
3.1.2 開発言語
3.1.3 実行環境の準備
3.1.4 プログラムコードへのアクセス方法
3.2 Pythonの各種ライブラリ
3.2.1 NumPy
3.2.2 SciPy
3.2.3 Pandas
3.2.4 Matplotlib
3.2.5 Scikit-Learn
3.2.6 Scikit-Learnを使った機械学習
3.2.7 PyTorch
3.2.8 PyTorchを使ったニューラルネットワークの構築
3.3 まとめ
第4章 コンピュータヴィジョン
4.1 画像とは
4.2 画像データの読み込み
4.3 画像データの編集
4.4 動画とは
4.5 動画データの読み込み
4.6 動画データの編集
4.6.1 処理設定
4.6.2 動画書き出し設定
4.6.3 リサイズおよび書き出し
4.7 まとめ
第5章 パイプライン導入
5.1 パイプライン
5.1.1 コンセプト
5.1.2 動画処理を行う要素
5.1.3 エレメント
5.1.4 データ構造
5.2 実装例
5.2.1 ライブラリのインポート
5.2.2 Configオブジェクト
5.2.3 BBoxオブジェクト
5.2.4 Detectionオブジェクト
5.2.5 Driftingオブジェクト
5.2.6 動画読み込みエレメント
5.2.7 動画書き込みエレメント
5.2.8 動き検出エレメント
5.2.9 結果描画エレメント
5.2.10 メイン処理
5.3 まとめ
第6章 ヒューマンセンシング
6.1 物体検出
6.1.1 実行環境の準備
6.1.2 推論の実行
6.1.3 推論結果の描画
6.2 姿勢推定
6.2.1 実行環境の準備
6.2.2 推論の実行
6.2.3 推論結果の描画
6.3 セグメンテーション
6.3.1 実行環境の準備
6.3.2 推論の実行
6.3.3 推論結果の描画
6.4 動画への適用
6.4.1 侵入検知アプリ(物体検出)
6.4.2 挙手検知アプリ(姿勢推定)
6.4.3 プライバシーに配慮した混雑状況可視化アプリ(セグメンテーション)
6.5 まとめ
第7章 LLMチュートリアル
7.1 LLMアーキテクチャ
7.2 事前学習・ファインチューニング
7.3 出力文の生成
7.3.1 推論のしくみ
7.3.2 プロンプトエンジニアリング
7.4 LLMの実装例
7.4.1 GPT-4oの使用
7.4.2 Mistralのファインチューニング
第8章 マルチモーダル技術の基礎
8.1 マルチモーダル技術とは
8.2 マルチモーダルモデル
8.2.1 アーキテクチャ
8.2.2 画像とテキストを組み合わせたタスク
8.3 画像キャプショニングとVQA の実践例
8.3.1 GPT-4 Vision/GPT-4o
8.3.2 BLIP2
8.4 ゼロショット画像分類
8.4.1 CLIP
8.4.2 XCLIP
8.4.3 画像キャプショニングとプロンプトによる画像分類
8.5 Grounding DINO
8.5.1 入力と推論結果の例
8.5.2 推論の実装例
8.5.3 SAMとの組み合わせ
8.6 まとめ
第9章 ヒューマンセンシングと生成AIの融合
9.1 ヒューマンセンシングと生成AIの融合がもたらすインパクト
9.1.1 すべての人が有能な秘書をもつ時代
9.1.2 人間理解の深化と技術の共進化
9.2 具体的な活用例
9.2.1 教育分野におけるパーソナライズの実現
9.2.3 企業の意思決定支援と業務自動化の進展
9.3 生成AIブームが終わった後も
9.3.1 ブームはいつか終わる
9.3.2 生成AIにおけるスタートアップの役割
9.3.3 持続可能な発展と人間中心の技術進化の重要性
続きを見る