新刊

入門マルチモーダルRAG 図表を読み解くAIアプリケーションの実装

著者: 新納浩幸著

「図表を読めるRAG」を作る

近年、テキストだけでなく、図・表・グラフといった画像を含む資料からも情報を検索・活用できる「マルチモーダルRAG（Retrieval-Augmented Generation）」の重要性が高まっています。従来のRAGが扱える情報はテキストデータに限定されており、実務現場で扱う文書──技術報告書・研究論文・プレゼン資料──のように、図表を多く含むデータには十分対応できませんでした。本書は、この課題を踏まえて、実務文書にも対応できるマルチモーダルRAGについて体系的に解説します。

本書では、自分の手でマルチモーダルRAGを構築できるようになることを目指します。全体を通して、手を動かしながら理解できるよう、再現可能なコード例を多数提示しています。

このような方におすすめ

◎RAGに関係する技術者（機械学習／AIエンジニア、アプリケーション開発者、データサイエンティストなど）
〇AI関連サービスを開発している企業の営業や広報の担当者

初級

書籍詳細
目次
ダウンロード
正誤表

書籍詳細

定価: 2,860円（本体2,600円＋税）
頁: 184頁
発売日: 2026/06/17
ISBN: 978-4-274-23493-4
判型: A5
発行元: オーム社

書籍カテゴリ: 情報・ネットワーク・コンピュータ

システム応用

知識工学・人工知能

はじめに
目次

第１章テキストベースのRAG
1-1 RAGの3つの構成要素
1-2 データベースの作成
1-3 検索器の作成
1-4 回答生成器の作成

第２章マルチモーダルRAG
2-1 マルチモーダルRAGとは
2-2 マルチモーダルRAG実現の主要アプローチ
2-3 画像のテキスト化による実装
2-4 画像とテキストの同一空間埋め込みによる実装
2-5 評価メトリクスと実践

第３章マルチモーダルRAGの実装手法
3-1 Embed 4の利用
3-2 CLIP-RAGの利用
3-3 マルチモーダル反復RAG

第４章特化型マルチモーダルRAG
4-1 マルチモーダルRAGのファインチューニング
4-2 projectorとLLMのファインチューニング
4-3 画像検索用のデュアルエンコーダのファインチューニング

おわりに
参考文献
索引