発注仕様に「精度〇%以上」と数値を書くとき、何を基準に決めればよいですか？

業務での誤り許容度を起点に決めるのが基本です。人が最終確認できる社内FAQなら70〜80%台でも実用になる一方、契約書チェックや医療情報など誤りが許されない業務では90%台以上を要件に据えることが一般的です。「一律の正解」はなく、自社の業務リスクと照らして上限・下限を言語化するのが先決です。

正解データの準備を発注側と受注側のどちらが担うか、契約前にどう決めればよいですか？

業務固有の知識が必要な部分は発注側、評価ツールの設定や作業工数は受注側という分担が現実的です。契約前にRFPへ「正解データの作成主体と工数負担」を明記し、見積もりにその工数が含まれているかを確認してください。ここを曖昧にすると、評価工数が後から追加費用として請求されるケースが多発します。

ベンダーから「ハイブリッド検索は不要」と言われました。そのまま受け入れてよいですか？

自社文書に固有名詞・型番・コード番号が多い場合は、ベクトル検索単体だと取りこぼしが発生しやすいため慎重に判断してください。「想定される質問の例10〜20件」を提示し、その質問で精度が担保できる根拠を示してもらうことが確認の出発点になります。

安い見積もりが「評価工数を省いているだけ」なのか見抜く方法はありますか？

「テスト・品質評価」と「ドキュメント整備・データクレンジング」の合計が初期費用の2〜3割を占めているか確認するのが最速です。これらの項目が極端に低い、または記載がない場合は「精度をどの指標で測り、正解データは誰が用意するか」と直接質問してください。回答が曖昧なら評価工数が抜けているサインです。

PoCを発注するとき、「本番に進む判定基準」はどう設定すればよいですか？

「想定される代表的な質問20件に対し、正解文書が上位3件以内に含まれる割合が〇%以上」のように、件数・測定対象・合格水準を数値で定義するのが基本です。判定基準が曖昧だとPoCの成否が決まらず、本番スコープや追加費用の交渉で揉める原因になります。

運用開始後に精度が下がってきた場合、追加費用の妥当性はどう判断すればよいですか？

「継続チューニング・データ更新が月額費用にどこまで含まれるか」を契約時に明文化しているかが分岐点です。含まれていない場合は変動要因（文書改訂量・未対応クエリ件数）に応じた追加見積もりを比較検討し、初期費用の20〜30%を年間運用費の目安として妥当性を判断してください。

リトリーバーとは？RAGの検索精度と費用の関係｜発注者向け

社内文書検索やFAQ対応にRAGを導入しようと、複数の開発会社から見積もりを取り始めた。ところが、会社によって金額が数倍も違い、提案書には「ハイブリッド検索」「リランキング」「Recall改善」といった見慣れない用語が並んでいる。「精度を上げる」という項目に何十万円もの差がついているけれど、その差が何に由来するのか説明できない。こんな状態で社内稟議を通すのは難しい——RAGの発注を任された方の多くが、ここでつまずきます。

これらの用語の正体は、ほとんどが「リトリーバー」と呼ばれるRAGの一部分に関わるものです。リトリーバーはRAGの回答品質を左右する重要なコンポーネントであり、見積金額の差の多くも、実はこのリトリーバーの精度にどれだけ投資するかの違いから生まれています。逆に言えば、リトリーバーと精度・費用の関係さえ押さえてしまえば、見積もりの妥当性を自分で判断できるようになります。

ただし、世の中のRAG解説記事の大半はエンジニア向けに書かれており、実装方法やサンプルコードが中心です。発注者やPMが本当に知りたい「なぜ費用がかかるのか」「発注判断にどう使えるのか」という視点で整理された情報は、ほとんど見当たりません。

そこで本記事では、コードを書かない発注者・PMの方に向けて、リトリーバーとは何か、その精度がなぜ費用に跳ね返るのか、そして発注仕様（RFP）に精度要件をどう書けばよいかを、技術詳細を最小限に抑えて整理します。読み終えるころには、稟議で金額差を説明し、ベンダーへの質問項目を準備できる状態になっているはずです。

Contents — 目次

リトリーバーとは？ RAGの「検索担当」がなぜ回答品質を決めるのか
ベクトル検索の精度を左右する要素（発注書で見かける用語の整理）
リトリーバーの精度はどう測る？発注者が押さえるべき1つの結論
リトリーバーの精度が費用に与える影響 ─ どこにお金がかかるのか
発注仕様に精度要件をどう反映するか ─ RFPに書くべき項目とベンダーへの質問
まとめ ─ リトリーバーの理解が発注の質を変える

—Free Download / 資料ダウンロード

はじめての AI 導入ガイド――中小企業が失敗しないための7ステップ

この資料でわかること

AI導入を検討しているが「何から始めればよいか分からない」中小企業の意思決定者に対し、導入プロジェクトの全体像を一気通貫で提示し、「自社でも着手できる」という確信と具体的な行動計画を持ってもらうこと。

こんな方におすすめです

AI導入を検討しているが、何から始めればよいか分からない
ベンダーの選び方や費用感がつかめず、判断できない
社内でAI導入の稟議を通すための資料が必要

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。

リトリーバーとは？ RAGの「検索担当」がなぜ回答品質を決めるのか

RAGの見積もりを理解する第一歩は、「リトリーバー」がRAGのどの部分を担っているのかを掴むことです。結論から言うと、リトリーバーはRAGの「検索担当」であり、ここの良し悪しが回答品質をほぼ決定づけます。見積書に並ぶ精度関連の項目は、突き詰めればすべて「このリトリーバーをどこまで賢くするか」に行き着きます。だからこそ、発注者がまず正確に押さえるべきはリトリーバーの役割なのです。

RAGは「検索」と「生成」の2段階

RAG（Retrieval-Augmented Generation）は、日本語にすると「検索で補強した文章生成」という意味です。仕組みは大きく2つの段階に分かれています。

検索（Retrieval）: ユーザーの質問に関連しそうな社内文書を、大量の資料の中から探し出す段階。ここを担当するのがリトリーバーです。
生成（Generation）: 探し出した文書を材料にして、ChatGPTのようなAI（大規模言語モデル、LLM）が回答文を組み立てる段階。

たとえば「育児休業の申請期限は何日前まで？」と社員が質問したとします。リトリーバーがまず社内規程の中から「育児休業」に関する条文を探し出し、その条文をAIに渡します。AIはその条文を読んで「申請は休業開始の1か月前までです」といった回答を作ります。

つまり、AIは渡された文書を読んで答えているだけで、自分で社内規程を覚えているわけではありません。AIに何を渡すかを決めるのがリトリーバーの仕事であり、ここが社内に蓄積された膨大な文書とAIをつなぐ唯一の「接点」になります。

リトリーバーの品質が低いと何が起きるか

ここが最も重要なポイントです。どれだけ優秀なAIを使っても、リトリーバーが的外れな文書を渡してしまえば、正しい回答は得られません。

先ほどの例で、リトリーバーが「育児休業」ではなく「介護休業」の条文を間違って拾ってきたとします。すると、AIはその介護休業の条文をもとに、もっともらしい文章で誤った期限を答えてしまいます。AI自身は渡された文書を信じて回答しているので、嘘をついている自覚はありません。これがいわゆる「ハルシネーション（もっともらしい嘘）」や「的外れな回答」の正体の一つです。

よく「ゴミを入れればゴミが出る（Garbage In, Garbage Out）」と言われますが、RAGではリトリーバーが渡す文書がまさにこの「入力」にあたります。AIの賢さをいくら高めても、検索段階で間違った文書を拾えば、回答は信頼できません。

ここで発注者として持っておきたい視点があります。RAGプロジェクトでトラブルになるのは「AIが賢くないから」ではなく、ほとんどが「検索（リトリーバー）が期待どおりに動かないから」だということです。最新の高性能なAIモデルを指定すれば品質が保証されるわけではなく、本当に投資すべきはリトリーバーの精度です。見積書を読むときも、「どのAIモデルを使うか」より「リトリーバーをどう作り込むか」に注目すると、金額差の本質が見えてきます。

なぜ発注者がリトリーバーを理解しておくべきか

「技術の話はベンダーに任せればいい」と思われるかもしれません。しかしリトリーバーの精度は、後述するとおり自社の業務をどう言語化し、何を「正解」とするかに強く依存します。ここはベンダーだけでは決められず、発注側の関与が不可欠な領域です。

つまりリトリーバーは「丸投げできない部分」を含んでいます。役割を理解しないまま発注すると、「精度が上がらない」「想定外の追加費用が出た」というトラブルに直結します。逆に、リトリーバーが何をしていて、どこに発注側の判断が必要かを押さえておけば、見積もりの妥当性を見抜き、稟議で金額差を説明できるようになります。本記事がリトリーバーの説明に多くを割くのは、ここが発注の質を最も大きく左右するからです。

なお、RAGそのものの仕組みや業務での活用パターンをもう少し広く知りたい方は、RAG開発・構築ガイドもあわせてご覧ください。

ベクトル検索の精度を左右する要素（発注書で見かける用語の整理）

見積書や提案書には、リトリーバーの精度に関わる用語が並びます。「ハイブリッド検索」「ベクトル検索」「チャンク」「リランキング」——これらはいずれも、リトリーバーの検索精度を高めるための技術的な工夫です。

発注者として押さえておきたいのは、これらが段階的なグレードアップだという構図です。最もシンプルなベクトル検索（意味の近さで文書を探す方法）を土台に、ハイブリッド検索（キーワード検索と組み合わせて固有名詞の取りこぼしを防ぐ）、チャンク設計（文書の切り方の作り込み）、リランキング（検索結果の並べ直し）と積み上げるほど、検索精度は上がります。そして仕組みを足すたびに実装の手間や運用コストが増え、それが見積金額に乗ってきます。

つまり、見積金額の差は「リトリーバーにどこまで仕組みを積んだか」の差であることが少なくありません。発注者がここで持つべき問いは、各用語の技術的な中身を理解することではなく、「自社の文書と用途に対して、どこまで積む必要があるのか」を判断することです。たとえば型番や固有名詞が多い文書ならハイブリッド検索の効果が出やすく、シンプルなFAQならベクトル検索だけで足りることもあります。

各技術要素（ベクトル検索とキーワード検索の違い、ハイブリッド検索の仕組み、チャンク設計、リランキングなど）の詳しい解説は、ベクトル検索とは？RAGシステムの費用・精度を発注者が判断する基礎知識で取り上げています。本記事では、これらが「リトリーバーの精度を段階的に高める仕組みであり、積むほど費用に跳ね返る」という発注判断の文脈に絞って先に進みます。

リトリーバーの精度はどう測る？発注者が押さえるべき1つの結論

「精度を上げます」という提案を受けたとき、技術的には取りこぼしの少なさ（Recall）や正解が上位に来る度合い（MRR・nDCGなど）といった指標で精度を測ります。これらの指標の読み方や評価手法の詳細は、ベクトル検索とは？RAGシステムの費用・精度を発注者が判断する基礎知識で解説しています。

発注者として本記事で押さえておきたい結論は1つです。精度を測るには「この質問にはこの文書が正解」という正解データ（テスト用の質問と期待される回答のセット）を用意する必要があり、その準備には発注側の関与が欠かせず、これが費用に直接影響するということです。正解データは自社の業務を理解した人でないと作れない部分が多く、評価ツールで自動化できる範囲にも限界があります。「精度を保証する」という提案の裏には必ずこの評価工数が隠れており、安すぎる見積もりはこの工数が含まれていない可能性があります。「精度はどう測り、正解データは誰が用意するのか」——これが発注者として必ず確認すべき質問になります。

リトリーバーの精度が費用に与える影響 ─ どこにお金がかかるのか

ここまでの内容を踏まえ、本記事の核心である「精度と費用の関係」を整理します。RAG開発の見積金額が会社ごとに数倍違うのは、その多くがリトリーバーの精度にどこまで投資するかの差だからです。ここでは「どこにお金がかかるのか」を内訳レベルで分解し、見積書の金額差をどう読めばよいかまで踏み込みます。費用は大きく「初期費用」と「運用費」に分かれます。

初期費用に効くもの（実装の作り込み・チャンク設計・評価データ整備）

導入時にかかる初期費用のうち、精度に関わるのは主に次の3つです。

検索の作り込み: ベクトル検索だけのシンプルな構成か、ハイブリッド検索やリランキングまで積み上げるか。仕組みを足すほど実装の手間が増えます。
チャンク設計: 文書の切り方を業務に合わせて設計・検証する工程。丁寧にやるほど精度は上がり、工数も増えます。
評価データの整備: 精度を測るための正解データづくり。先ほど述べたとおり、これ自体が独立した工数になります。

中規模システムの初期費用の内訳例では、開発費（エンジニア2〜3名×3か月）が200万〜500万円、インフラ構築費が50万〜100万円、ドキュメント整備・データクレンジングが50万〜150万円、テスト・品質評価が30万〜100万円とされています（出典: 株式会社ripla「RAG開発・構築のコストと費用の相場」）。

この内訳を読むうえで発注者が注目すべきは、精度に直結する「テスト・品質評価」と「ドキュメント整備・データクレンジング」が、合わせて初期費用の2〜3割を占めうるという点です。見積書でこの2項目がほとんど計上されていない、あるいは極端に低い場合は、「精度をどう担保するつもりなのか」を確認するサインだと考えてください。逆に、ここに相応の工数が積まれている見積もりは、精度に正面から向き合っている可能性が高いといえます。「開発費が安いから良い見積もり」ではなく、精度を支える工程が含まれているかで判断するのが、金額差の正しい読み方です。

運用費に効くもの（継続チューニング・リランキングモデルの推論コスト・データ更新）

RAGは作って終わりではなく、運用しながら精度を保つ必要があります。運用費に効くのは次のような要素です。

継続的なチューニング: 実際に使い始めると「この質問でうまく拾えない」というケースが出てきます。それを見つけて調整し続ける作業です。
リランキングなど追加処理の実行コスト: リランキングモデルやAIの利用は、使うたびに費用が発生します。精度を高める仕組みほど、毎月の処理コストが乗ります。
データの更新: 社内規程やマニュアルが改訂されれば、リトリーバーが参照する文書も更新が必要です。

中規模システムの月額運用費は30万〜100万円程度（インフラ＋API＋保守）が目安とされています（出典: 株式会社ripla「RAG開発・構築のコストと費用の相場」）。別の試算では、年間運用費を初期費用の20〜30%程度として見積もる考え方も示されています（出典: 株式会社MoMo「RAG導入費用を徹底解説」）。たとえば初期費用が500万円なら、年間100万〜150万円の運用費が継続的にかかる計算です。見積書の運用費がこの水準から大きく外れて安い場合は、チューニングやデータ更新の工数が含まれていない恐れがあります。RAGは初期費用だけでなく、この継続コストを前提に予算を組むことが重要です。

「精度100%」を目指すと費用が跳ね上がる理由 ─ 業務に応じた線引き

最後に、発注判断で最も大切な考え方をお伝えします。精度は、上げれば上げるほど追加費用が逓増する（だんだん高くつく）ということです。

検索精度を70%から85%に上げるのと、95%から99%に上げるのとでは、後者のほうがはるかに大きな労力と費用がかかります。最後のわずかな精度向上のために、評価データの拡充、チューニングの繰り返し、追加の仕組みの導入が必要になるためです。

だからこそ重要なのが、業務に応じた線引きです。社内FAQのように「多少外しても人が確認すればよい」業務なら、ほどほどの精度で十分かもしれません。一方、契約書のチェックや医療情報のように「誤りが許されない」業務なら、高い精度への投資に見合う価値があります。

「とにかく高精度に」と漠然と求めると費用は青天井になります。自社の業務でどこまでの精度が必要かを見極めることが、過剰投資を避ける鍵です。この線引きが、そのまま発注仕様に書くべき要件につながります。

参考までに、フェーズ別の費用相場の目安は次のとおりです。

フェーズ	費用相場の目安	開発期間の目安
PoC（概念実証）	50万〜200万円	1〜2か月
中規模システム（部門向け）	200万〜800万円	2〜4か月
月額運用費（中規模）	30万〜100万円／月	継続

SCROLL→

（出典: 株式会社ripla「RAG開発・構築のコストと費用の相場」。金額はデータ量・セキュリティ要件・既存システムとの連携範囲によって変動します）

発注仕様に精度要件をどう反映するか ─ RFPに書くべき項目とベンダーへの質問

ここまでの理解を、実際の発注アクションに落とし込みます。精度要件を発注仕様（RFP）に明記し、ベンダーに的確な質問をすることで、見積もりの妥当性を判断でき、後々のトラブルも防げます。本記事の中で、ここが最も実務に直結する部分です。RFPの段階で精度に関する条件を言語化できているかどうかが、見積もりの精度とプロジェクトの成否を大きく分けます。

発注仕様（RFP）に盛り込むべき項目チェックリスト

RFPや発注仕様には、少なくとも次の項目を盛り込むことをおすすめします。各項目について「なぜ必要か」も添えておきます。

対象データの種類と量: 何の文書（規程・マニュアル・議事録など）を、どのくらいの量扱うのか。データの種類と量はチャンク設計やインフラ規模を左右し、費用の前提になります。
想定される質問の例: 実際に社員や顧客がどんな聞き方をするか、代表的な質問を10〜20件ほど具体的に提示する。これがベンダーの設計精度を大きく左右し、後の評価データの土台にもなります。
許容できる精度水準: 「この業務ではどこまでの精度が必要か」を、用途に照らして明記する。線引きが曖昧だと、ベンダーは過剰なスペックを見積もるか、逆に安く見せるために評価を省きがちです。
評価方法と合格基準: どの観点（取りこぼしの少なさ・上位表示など）で、どの水準を満たせば合格とするか。合格基準がないと「精度が出た／出ない」の判断ができず、検収でもめます。
正解データを誰が用意するか: 評価に使う正解データの準備を、発注側・受注側のどちらが担うか。ここを決めずに進めると、評価工数が見積もりから漏れ、後で費用負担の押し付け合いになります。
PoCの有無と判定基準: いきなり本番ではなく、まず小規模に試すかどうか。PoCを挟むなら、本番に進む判定基準もあらかじめ定めておきます。
データ更新と運用範囲: 文書改訂時の更新やチューニングを、運用契約のどこまでに含めるか。ここを明記しておくと、運用フェーズでの追加費用を抑えられます。

これらをRFPに書いておくと、各社の見積もりが同じ土俵で比較できるようになり、「何が含まれているか」を揃えて検討できます。

ベンダーに必ず確認したい質問リスト

見積もりや提案を受けたら、次の質問をぶつけてみてください。回答の具体性が、ベンダーの実力と見積もりの誠実さを測る手がかりになります。

ハイブリッド検索やリランキングは使いますか。使う／使わない場合の理由は何ですか。
精度はどの観点で測り、どの水準を保証してもらえますか。
評価に使う正解データは、誰がどのように用意しますか。
想定どおりの精度が出なかった場合、追加費用は誰が負担しますか。
運用開始後のチューニングやデータ更新は、月額費用にどこまで含まれますか。
見積もりのうち、品質評価・データ整備にあたる費用はどの程度ですか。

特に最後の2つは、これまで見てきた「精度を支える工程が見積もりに含まれているか」を直接確かめる質問です。回答が曖昧だったり、評価工数がほとんど計上されていなかったりする場合は、後から精度トラブルや追加費用が発生するリスクが高いと判断できます。

また「精度が出なかった場合の追加費用」は、契約前に合格基準と未達時の扱いとしてあらかじめ取り決めておくべき重要事項です。ここを曖昧にすると、後から想定外の追加費用が発生しがちです。

いきなり本番ではなくPoCから始める判断

RAGは、実際の社内データで動かしてみないと精度が読めない部分があります。そのため、最初から本番システムをフルスペックで発注するのではなく、まずPoC（概念実証）として小規模に試すアプローチが有効です。

PoCでは、自社の代表的な質問に対してどの程度の精度が出るかを、比較的小さな費用（50万〜200万円程度）で検証できます。ここで「この用途なら十分使える」「もっと精度が必要」といった手応えを得てから、本番開発の規模と精度水準を決めれば、過剰投資も精度不足も避けられます。多くの企業がこの「小さく始める」アプローチでコストを最適化しています（出典: 株式会社MoMo「RAG導入費用を徹底解説」）。

PoCを発注する際も、前述のチェックリストにある「想定される質問の例」と「合格基準」を必ず添えてください。これがないと、PoCで何をもって成功とするかが定まらず、本番に進む判断ができなくなります。

まとめ ─ リトリーバーの理解が発注の質を変える

RAGの見積もりに並ぶ「ハイブリッド検索」「リランキング」「精度向上」といった項目は、そのほとんどがリトリーバー（検索担当）の精度をどこまで高めるかに関わるものでした。そして、見積金額が会社ごとに数倍違う理由の多くも、この精度への投資度合いの差にあります。

押さえるべき因果はシンプルです。リトリーバーの品質が回答品質を決め、精度を上げるほど初期費用も運用費も増えていく。だからこそ、自社の業務でどこまでの精度が必要かを見極め、それを発注仕様に書き、ベンダーに的確に質問することが、過剰投資を避け、稟議を通すための鍵になります。

次のアクションとして、まずは自社の用途で許容できる精度水準を社内で言語化し、本記事のチェックリストと質問リストを手元に発注仕様を整えてみてください。そして、いきなり本番を発注するのではなく、PoCから始めて手応えを確かめる。この順序を踏めば、リトリーバーへの理解が、そのまま発注の質の高さにつながります。

—Free Download / 資料ダウンロード