内容紹介
「図表を読めるRAG」を作る
近年、テキストだけでなく、図・表・グラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG(Retrieval-Augmented Generation)」の重要性が高まっています。従来のRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──PDF・Word・PowerPointなど──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえて、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。
本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。
このような方におすすめ
◎RAGに関係する技術者(機械学習/AIエンジニア、アプリケーション開発者、データサイエンティストなど)
〇AI関連サービスを開発している企業の営業や広報の担当者
目次
主要目次
Chapter 1 テキストベースのRAG
Chapter 2 Responses APIのfile searchによるRAG
Chapter 3 標準的なマルチモーダルRAG
Chapter 4 ColPaliを利用したマルチモーダルRAG
Chapter 5 エージェントによる自律制御を組み込んだMMA-RAG
Chapter 6 VQAを中核としたマルチモーダルRAG
詳細目次
はじめに
目次
Chapter 1 テキストベースのRAG
1.1 RAG全体像
1.2 データベースの作成
1.3 検索器の作成
1.4 プロンプトの作成
1.5 LLMによる回答生成
1.6 全体のRAGシステムの実装
本書の実装例の実行手順
Chapter 2 Responses APIのfile searchによるRAG
2.1 データベースの構築
2.2 回答の生成
2.3 マルチモーダルRAGへの拡張
本書の実装例の実行手順
Chapter 3 標準的なマルチモーダルRAG
3.1 PDF文書から画像の抽出
3.2 画像のテキスト化によるマルチモーダルRAG
3.3 テキストと画像を同一のベクトル空間に埋め込むマルチモーダルRAG
本書の実装例の実行手順
Chapter 4 ColPaliを利用したマルチモーダルRAG
4.1 ColPaliによるページ画像の検索
4.2 ColPaliによるマルチモーダルRAGの処理の流れ
4.3 PDF文書の格ページを画像に変換
4.4 各ページ画像をColPaliにより行列へ変換
4.5 クエリをColPaliにより行列へ変換
4.6 クエリとページ画像の間の類似度を計算し検索
4.7 検索されたページ画像とクエリをVLMに入力した回答の生成
本書の実装例の実行手順
Chapter 5 エージェントによる自律制御を組み込んだMMA-RAG
5.1 LangGraphについて最低限知っておくべきこと
5.2 LangGraphの簡単な実装例
5.3 検索結果を順次利用するMMA-RAGの実装
5.4 外部LLMの利用
5.5 外部ループによる拡張
本書の実装例の実行手順
Chapter 6 VQAを中核としたマルチモーダルRAG
6.1 VQA型マルチモーダルRAGの位置づけ
6.2 医療画像に対する画像検索
6.3 MedGemmaの利用
6.4 VQAへのプロンプト設計
本書の実装例の実行手順
おわりに
索引
著者略歴
続きを見る