内容紹介
「図表を読めるRAG」を作る
近年、テキストだけでなく、図・表・グラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval-Augmented Generation)」の重要性が高まっています。従来のRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──技術報告書・研究論文・プレゼン資料──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえて、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。
本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。
このような方におすすめ
◎主読者:RAGに関係する技術者(機械学習/AIエンジニア、アプリケーション開発者、データサイエンティストなど)
〇周辺読者:AI関連サービスを開発している企業の営業や広報の担当者
目次
主要目次
はじめに
目次
第1章 テキストベースのRAG
第2章 マルチモーダルRAG
第3章 マルチモーダルRAGの実装手法
第4章 特化型マルチモーダルRAG
おわりに
参考文献
索引
詳細目次
はじめに
目次
第1章 テキストベースのRAG
1-1 RAGの3つの構成要素
1-2 データベースの作成
1-3 検索器の作成
1-4 回答生成器の作成
第2章 マルチモーダルRAG
2-1 マルチモーダルRAGとは
2-2 マルチモーダルRAG実現の主要アプローチ
2-3 画像のテキスト化による実装
2-4 画像とテキストの同一空間埋め込みによる実装
2-5 評価メトリクスと実践
第3章 マルチモーダルRAGの実装手法
3-1 Embed 4の利用
3-2 CLIP-RAGの利用
3-3 マルチモーダル反復RAG
第4章 特化型マルチモーダルRAG
4-1 マルチモーダルRAGのファインチューニング
4-2 projectorとLLMのファインチューニング
4-3 画像検索用のデュアルエンコーダのファインチューニング
おわりに
参考文献
索引
続きを見る