評価用データは開発会社に用意してもらってよいですか？

開発会社に依頼することは可能ですが、「正解ラベルの最終判定」は業務を知る発注者側が行うことを強くおすすめします。評価データの妥当性（学習データと分離されているか、本番に近いか）は開発会社に確認しつつ、正解かどうかの判断は業務担当者が自ら下すことで、精度数値の信頼性が担保されます。

契約前に合格ラインを合意していませんでした。今から決めることはできますか？

検収段階でも合格ラインの合意は可能です。ただし、合意のないまま検収を進めると「言った・言わない」のトラブルになりやすいため、まず開発会社と合格基準を文書で取り決めてから検収作業を始めてください。合格ラインは業務目標から逆算して発注者側が主導して決めるものです。

生成AIの採点シート評価で、評価者によって判断がバラつきます。どう対処すればよいですか？

採点基準を事前に「許容できる回答」と「NG回答」の具体例付きで文書化することが根本的な対処です。それでも判断が分かれるケースは「AIにとっても難しいデータ」として記録し、不合格判定の根拠を開発会社に提示する際の参考にします。評価者間の不一致が多い場合は、評価基準そのものを見直すサインでもあります。

開発会社が提示してきた精度の数値はそのまま信頼してよいですか？

必ず評価条件を確認してください。「学習データと評価データが分離されているか」「本番に近いデータで測定されているか」「正解ラベルが業務基準で付与されているか」の3点を満たしていなければ、数値が実際より高く出ている可能性があります。条件が不明な場合は開発会社に説明を求めてください。

みなし検収の期間内に作業が終わらない場合はどうすればよいですか？

期間内に「検収作業中であり、まだ合否を判断できていない」旨を書面で開発会社に通知することが重要です。沈黙は合格とみなされる場合があるため、不合格通知だけでなく「判断保留の通知」も期間内に行ってください。必要であれば検収期間の延長を合意するよう交渉することも選択肢です。

AIシステムの検収方法｜発注者向け受け入れテスト手順

「完成しました。検収をお願いします」。開発会社からそう言われたものの、画面の前で手が止まっていませんか。従来のシステムなら「要件どおり動くか」「画面が正しく表示されるか」を確認すれば検収できました。ところが今回はAIシステムです。AIは「たまに間違える」のが前提だと聞いていて、では一体どこまでが許容範囲なのか、これで合格にしてよいのかが判断できない。社内にAIの品質を見極められる人もいない。本番で誤った出力が出れば業務や顧客に影響する以上、安易に検収印は押せない。そうした不安を抱えている発注担当者は少なくありません。

この不安は、あなたの確認能力が足りないせいではありません。AIシステムは構造的に「不具合ゼロ＝合格」という従来の合否基準が通用しないため、検収の難易度が本質的に高いのです。だからこそ、AIならではの観点（精度・異常時の振る舞い・出力の偏り）を、順序立てた手順とチェックリストに落とし込む必要があります。

幸い、AI検収のすべてにエンジニアの専門スキルが必要なわけではありません。評価用のデータを準備し、結果を表に整理し、業務目標から逆算して合格ラインを決める。この一連の作業は、スプレッドシートと業務知識があれば発注者自身で進められる部分が大きいのです。重要なのは「何を・どの順序で・どんな基準で確認するか」を知っていることです。

本記事では、非エンジニアの発注担当者がAIシステムを自力で検収できるよう、検収を3つのフェーズに分けた進め方、評価用データの作り方、精度の測り方（非エンジニア向け）、そのまま社内で使える検収チェックリスト、そして「合格・不合格の線引き」と不合格時に開発会社へ求めることまでを、順を追って解説します。

Contents — 目次

AIシステムの検収が従来システムより難しい理由
AIシステムの検収を進める3つのフェーズ
テストデータの準備（評価用データセットの作り方）
AI検収の評価指標と精度の測り方（非エンジニア向け）
AI検収チェックリスト（発注者が自力で確認する項目）
検収の合否判断と、不合格時に開発会社へ求めること
まとめ

—Free Download / 資料ダウンロード

システム開発完全チェックリスト――発注前・発注中・完了後の3フェーズで使えるチェック集

この資料でわかること

システム開発の外注・発注を初めて経験する担当者や、過去に失敗を経験した担当者が、発注プロセスの各フェーズで「何をチェックすべきか」を明確に把握できるようにする。

こんな方におすすめです

初めてシステム開発を外注する担当者
過去の発注で失敗を経験した方
ベンダー選定の基準が分からない方

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。

AIシステムの検収が従来システムより難しい理由

最初に、「動けばOK」では検収できない理由をはっきりさせておきましょう。ここが腑に落ちると、その後の手順がなぜ必要なのかが見えてきます。

従来のシステムは、基本的に決められたとおりに動きます。「ボタンを押したら登録される」「合計金額が正しく計算される」といった処理は、同じ操作をすれば毎回同じ結果になります。だから「要件どおりに動くか」「不具合がゼロか」を確認すれば、検収の合否を判断できました。

一方、AIシステム（とくに需要予測・チャット応対・書類分類といった予測・生成を行うもの）は、決められた手順ではなく、学習したデータから導いた「確率的な判断」で出力します。これには3つの大きな特徴があります。

1つ目は、必ず一定割合で間違えることです。AIは「正解する確率が高い答え」を返す仕組みであり、100%正解するわけではありません。間違いがゼロでないことは不具合ではなく、AIの性質そのものです。

2つ目は、学習に使ったデータが品質の上限を決めることです。AIは学習したデータの範囲でしか賢くなれません。学習データが偏っていたり、本番で扱うデータと性質が違っていたりすると、その分だけ精度に限界が生じます。

3つ目は、本番のデータが学習時と少しずつズレていくことです。市場環境や顧客の傾向が変われば、入ってくるデータの傾向も変わり、当初の精度が徐々に落ちることがあります（この点は稼働後の話なので、後述のFAQで改めて触れます）。

これらの結果、「どこまでが許容範囲か」が発注者には見えにくくなります。手が止まるのは当然なのです。だからこそ、AI検収では考え方の転換と、確認すべき軸の整理が必要になります。

「100点ではなく合格ライン」で判断する

AI検収でまず必要なのは、発想の転換です。「ミスが1件でもあれば不合格」という基準でAIを評価すると、どんなに優秀なAIでも永遠に検収できません。AIは構造的に一定の誤りを含むからです。

代わりに、「業務で使えるレベルに達しているか」という合格ラインで判断します。たとえば「請求書の自動分類で、95%正しく分類できれば、残り5%は人が目視確認する運用で回せる」のであれば、95%という合格ラインを満たした時点で検収できます。

ここで大切なのは、「何%なら業務が回るか」を決めるのは技術ではなく業務側の判断だということです。つまり、合格ラインの設定はエンジニアでなければできない作業ではありません。むしろ業務を知る発注者こそが主役になる部分です。具体的な決め方は、後述の「AI検収の評価指標と精度の測り方」で解説します。

発注者が確認すべき4つの軸

AIシステムの検収で確認すべき観点は、大きく次の4つに整理できます。この記事全体を通じて、この4軸を繰り返し使います。

確認の軸	何を見るか	従来システムとの違い
機能要件	要件どおりの機能・画面・連携が動くか	従来と同じ。AI以外の部分はこれで確認できる
精度	AIの出力がどれだけ正しいか（合格ラインを満たすか）	AI特有。数値で測る必要がある
異常時の振る舞い（エッジケース）	想定外の入力や極端なケースで暴走・誤動作しないか	AI特有。学習していない入力への耐性を見る
出力の偏り（バイアス）	特定の属性・条件に不公平な偏りがないか	AI特有。一見正しく見えても偏りが潜むことがある

SCROLL→

機能要件の確認は従来のシステム検収と変わりません。発注者が新たに身につけるべきは、残りの3軸（精度・エッジケース・バイアス）です。この記事では、この3軸を非エンジニアでも実行できる形で順に解説していきます。

AIシステムの検収を進める3つのフェーズ

検収を「何から手をつければいいか分からない」状態から抜け出すには、作業をフェーズに分けて順番に進めるのが有効です。AIシステムの検収は、次の3つのフェーズに分けて計画すると漏れなく進められます。

フェーズ1：事前準備（合格基準・評価データ・テスト仕様の確認）

検収の成否は、実はこの事前準備でほぼ決まります。ここで確認・合意しておくべきは次の3点です。

合格基準：「精度が何%以上なら合格か」「どんな出力が出たら不合格か」を、数値や具体例で定義する
評価用データ：精度を測るためのデータ（後述）を、誰がどう用意するかを決める
受け入れテスト仕様：何を・どの順序で・誰が判定するかを文書化する

ここで注意したいのは、合格基準が契約前に合意できていないケースです。「とりあえず作ってもらったが、合格ラインの話をしていなかった」という状態では、納品物が良いのか悪いのかを判断する物差しがありません。本来、AIの性能基準は契約前に開発会社とすり合わせておくべきものです。検収段階で基準が曖昧なことに気づいた場合は、検収を急がず、まず開発会社と合格基準をすり合わせるところから始めてください。契約前の基準合意の進め方については、AI精度保証とは？発注者が契約前に合意すべき性能基準の決め方で詳しく解説しています。

フェーズ2：機能・精度検証

事前準備が整ったら、実際に動かして確認します。このフェーズは2つに分かれます。

機能確認：要件どおりの機能・画面・他システム連携が動くか。ここは従来のシステム検収と同じ要領で進められます
精度測定：用意した評価用データをAIに処理させ、出力がどれだけ正しいかを数値で測る。これがAI検収の中核です

精度測定の具体的なやり方（指標の意味と測り方）は、後述の「AI検収の評価指標と精度の測り方」で詳しく説明します。

フェーズ3：エッジケース・偏り検証

精度が合格ラインを満たしても、それだけで安心はできません。「ふだんのデータ」では高い精度でも、「想定外のデータ」が来たときに暴走したり、特定の属性に不公平な判定を下したりすることがあるからです。

エッジケース（異常時の振る舞い）：空欄・極端な値・想定外の入力・少数派のケースを意図的に与えて、システムが破綻せず妥当に振る舞うかを確認する
バイアス（出力の偏り）：性別・年齢・地域などの属性によって出力が不公平に偏っていないかを確認する

この3フェーズを順に進めれば、検収は「漠然とした不安」から「計画できる作業」に変わります。次の章からは、各フェーズで必要になる準備や考え方を具体的に見ていきます。

テストデータの準備（評価用データセットの作り方）

AI検収の成否を分ける最大のポイントは、精度を測るための「評価用データ」をどう用意するかです。ここがいい加減だと、出てきた精度の数値そのものが信用できなくなります。逆に、ここは専門知識よりも業務知識が物を言う部分であり、発注者が主体的に関わるべきところです。

評価用データに求められる3つの条件

評価用データには、次の3つの条件が必要です。

学習データと分かれていること：AIが学習に使ったデータでテストしてはいけません。学校のテストで「予習した問題がそのまま出る」のと同じで、本当の実力が測れず、点数が不当に高く出てしまいます。学習に使っていない、AIにとって「初見」のデータで評価します
本番に近いこと：実際に本番で扱うデータと同じ性質・同じ傾向のデータを使います。たとえば本番で扱う書類に手書きが混ざるなら、評価用データにも手書きを含めます
正解が定義されていること：それぞれのデータに対して「本来こうあるべき」という正解がはっきり決まっていること。正解がなければ、AIの出力が合っているかどうかを判定できません

この3条件は、開発会社に「評価用データはこの条件を満たしていますか」と質問するチェック項目としても使えます。

正解ラベルの決め方と件数の目安

「正解」を決める作業（正解ラベル付け）は、業務を最もよく知る発注者側の担当者が判定者になるのが理想です。たとえば請求書分類なら、ふだんその分類をしている業務担当者が「この請求書はこのカテゴリが正解」と判定します。AIの専門知識は不要で、必要なのは業務の知識です。

判定者は1人より複数人で確認するほうが望ましいでしょう。人によって判断が分かれるデータがあれば、それは「AIにとっても難しいデータ」であり、合否判断の際の参考になります。

件数については、少なすぎると評価がブレます。極端な話、10件で評価して9件正解しても、それが「90%の実力」なのか「たまたま」なのかは分かりません。母数が小さいほど、偶然の影響が大きくなるからです。業務にもよりますが、最低でも数百件、できれば本番で扱う多様なパターンを十分カバーできる件数を、開発会社と相談しながら用意してください。「この件数で評価して大丈夫か」は開発会社に確認すべき重要な質問です。

エッジケース用・偏り確認用のデータは別に用意する

ふだんの業務データに加えて、フェーズ3で使う特殊なデータを別に用意します。

エッジケース用：空欄・桁外れの数値・想定外のフォーマット・めったに出ない少数派のケースなど、「めったに来ないが、来たら困る」入力をあえて集める
偏り確認用：性別・年齢・地域など、属性ごとに分けて精度を比較できるよう、各属性のデータをある程度の件数そろえる

これらは件数こそ少なめでも構いませんが、「ふだんのデータでの精度」とは別に管理することが重要です。平均の精度に紛れて、特定ケースの弱点が見えなくなるのを防ぐためです。

AI検収の評価指標と精度の測り方（非エンジニア向け）

評価用データが用意できたら、いよいよ精度を測ります。ここで登場する「正解率」「適合率」「再現率」といった指標は専門用語に聞こえますが、意味さえ業務の言葉に翻訳できれば、非エンジニアでも十分に使いこなせます。

予測・分類系AIの指標（正解率の落とし穴と使い分け）

まず多くの人が思いつくのが正解率（Accuracy）です。これは「全体のうち、何件正しく判定できたか」の割合で、最も直感的な指標です。

ところが、正解率だけを見ると危険な場合があります。たとえば「100件のうち不良品が3件しかない検査」を考えてみてください。AIが「全部、良品です」と判定すれば、それだけで正解率は97%になります。しかし、肝心の不良品3件をすべて見逃しているので、検査としては役に立ちません。このように、めったに起きないことを見つけたい場合、正解率は高く出ても実態と合わないことがあります。これが正解率の落とし穴です。

そこで使うのが、次の2つの指標です（適合率・再現率の考え方｜AIsmiley）。

再現率（Recall）：「本来見つけるべきものを、どれだけ取りこぼさず見つけられたか」。見逃しの少なさを表す
適合率（Precision）：「AIが『これだ』と判定したもののうち、本当に正しかった割合」。誤検知（空振り）の少なさを表す

この2つは、業務リスクで使い分けます。

業務の性質	重視する指標	例
見逃しが致命的（取りこぼしたくない）	再現率	不良品検知、病気の見落とし防止、不正取引の検知
誤検知の手間・損失が大きい（空振りを減らしたい）	適合率	スパム判定（重要メールを誤って弾きたくない）、過剰なアラート抑制

SCROLL→

「自社の業務では、見逃しと誤検知のどちらがより困るか」を考えれば、どの指標を合格基準にすべきかが決まります。これはまさに業務側の判断であり、発注者が決めるべきことです。

生成・対話系AIの評価（採点シートで評価する）

チャット応対や文章生成のようなAIは、出力が「自由な文章」なので、正解・不正解を機械的に数えにくいという難しさがあります。この場合は、人による採点シートで評価するのが現実的です。

手順はシンプルです。

想定される質問・入力を数十〜数百件用意する（評価用データと同じ考え方）
「許容できる回答」と「NG回答」の基準をあらかじめ言葉で定義する（例：事実に誤りがない／指示に従っている／不適切表現がない、など複数の観点）
AIに処理させ、各回答を担当者が観点ごとに採点する（例：各観点を◯△×で評価）
「◯が何割以上なら合格」といった合格ラインと照らして判定する

採点基準を事前に文書化しておくことが重要です。基準なしで「なんとなく良い・悪い」を判断すると、人によって評価がブレ、合否の根拠を開発会社に説明できなくなります。

合格ラインの決め方（業務目標から逆算する）

指標の意味が分かったら、最後に「何点なら合格か」を決めます。ここでの鉄則は、業務目標から逆算することです。

たとえば「請求書分類を自動化して、月100時間かかっていた仕分け作業を減らしたい」という目標があるとします。このとき、「精度95%で、残り5%を人が確認する運用なら、目標の作業削減が達成できるか」を業務側で試算します。達成できるなら95%が合格ライン、達成できないならもっと高い精度が必要、という具合に、業務の成果から逆算して数値を決めます。

「技術的に出せる最高精度」を追い求めるのではなく、「業務が回る最低ライン」を基準にするのがコツです。なお、こうした合格ラインは本来、検収時ではなく契約前に開発会社と合意しておくのが理想です。性能基準を契約段階でどう決めておくべきかは、AI精度保証とは？発注者が契約前に合意すべき性能基準の決め方で詳しく解説しています。

AI検収チェックリスト（発注者が自力で確認する項目）

ここまでの内容を、そのまま社内の検収作業に転用できるチェックリストにまとめます。フェーズ・観点ごとに「確認項目」「確認方法」「合格の目安」「不合格時に開発会社へ求めること」を整理しました。自社の状況に合わせて項目を取捨選択し、検収シートとして使ってください。

機能・精度のチェック項目

確認項目	確認方法	合格の目安	不合格時に開発会社へ求めること
要件どおりの機能・画面が動くか	要件定義書の機能を1つずつ操作して確認	全機能が要件どおり動作	未実装・誤動作箇所の修正
他システムとの連携	実データで連携処理を実行	データが正しく受け渡しされる	連携不具合の修正
精度が合格ラインを満たすか	評価用データを処理させ、正解率・適合率・再現率を算出	事前に合意した合格ラインを満たす	再学習・データ追加・モデル改善
精度の測り方の妥当性	評価用データが「学習と分離・本番に近い・正解あり」の3条件を満たすか確認	3条件を満たす	評価条件の見直し・再評価

SCROLL→

エッジケース・バイアス・再現性のチェック項目

確認項目	確認方法	合格の目安	不合格時に開発会社へ求めること
異常入力への耐性（エッジケース）	空欄・極端な値・想定外フォーマットを入力	エラーで止まる・無視するなど妥当に振る舞い、暴走しない	異常時のハンドリング実装
少数派ケースの精度	めったに出ないケースだけを集めて精度を測る	業務上許容できる精度	該当ケースのデータ追加・再学習
出力の偏り（バイアス）	性別・年齢・地域など属性別に精度を比較	属性間で著しい精度差がない	偏りの原因調査・データ補正
再現性	同じ入力を複数回処理させる	同条件で結果が大きくブレない	不安定な原因の調査・修正

SCROLL→

運用・説明可能性のチェック項目

確認項目	確認方法	合格の目安	不合格時に開発会社へ求めること
処理速度	本番想定の件数・タイミングで実行	業務で許容できる時間内に完了	性能改善
誤りが出たときの業務側の対処	AIが間違えたケースで、人が気づき・修正できる運用になっているか確認	誤りを検知・修正できる導線がある	確認画面・アラート等の追加
説明可能性	「なぜこの出力になったか」を開発会社が説明できるか質問	判断根拠の説明や、説明のための仕組みがある	判断根拠を確認できる仕組みの提供
運用マニュアル・引き継ぎ	納品物に運用手順・前提条件が含まれるか確認	運用に必要な情報が揃っている	マニュアル・前提条件の整備

SCROLL→

これらすべてを完璧に満たす必要はありません。自社の業務にとって重要な項目を選び、「どの項目が合格ラインに達していないか」を可視化することが、次の合否判断につながります。

検収の合否判断と、不合格時に開発会社へ求めること

チェックリストの結果が出たら、いよいよ「検収してよいか」を判断します。検収者が最も不安に思うこの場面を、判断と次のアクションに分けて整理します。

合格と判断する条件・検収完了の進め方

検収を「合格」と判断してよいのは、事前に合意した合格基準を、すべて満たしている場合です。具体的には次の状態です。

機能要件がすべて満たされている
精度が、業務目標から逆算した合格ラインを満たしている
エッジケース・バイアス・再現性で、業務上許容できない問題が見つかっていない
運用面（誤り時の対処・マニュアル等）が整っている

これらを満たしていれば、検収完了の手続きに進みます。このとき、検収の結果（何を・どう確認し、どの数値が合格ラインを満たしたか）を記録に残しておくことが重要です。後から「言った・言わない」のトラブルを防ぎ、万一あとで不具合が見つかった際の根拠にもなります。

不合格・基準未達のときに開発会社へ求める選択肢

合格ラインを満たさない項目があった場合、頭ごなしに「やり直し」を求める前に、何が原因かによって取れる選択肢が変わることを知っておくと、開発会社と建設的に話せます。

不足している点	開発会社へ求めうる対応
精度が全体的に足りない	再学習、学習データの追加・見直し、モデルの改善
特定ケースだけ精度が低い	そのケースのデータを追加して再学習
わずかに精度が足りない	合否のしきい値調整＋人による確認を組み合わせる運用での補完を相談
機能の未実装・不具合	契約・要件にもとづく修正（契約不適合責任に関わる場合あり）

SCROLL→

「精度がもう少しなら、運用でカバーできないか」という発想も有効です。たとえば「自動処理し切れない数%は人が確認する」運用を組み合わせれば、現実的な落としどころが見つかることもあります。重要なのは、合格ラインと現状のギャップを数値で示し、「何をどこまで改善すれば検収できるか」を開発会社と共有することです。

安易な検収のリスク（みなし検収・検収後の不具合対応）

最後に、検収にまつわる権利関係の基礎を押さえておきましょう。検収を軽く考えると、後で不利になることがあります。

ひとつは「みなし検収」です。これは、納品から契約で定めた一定期間内に不合格の通知をしないと、検収に合格したとみなす取り決めです。「沈黙は合格」と解釈されうるため、期間内に判断できないときや不合格とする場合は、具体的な不具合内容を添えて書面で通知する必要があります（みなし検収・検収期間の考え方）。検収期間の目安は契約によりますが、システム開発では2週間〜1ヶ月程度とされることが多いため、その期間内に検収を終えられるよう計画してください（システム開発の検収｜発注ラウンジ）。

もうひとつは、検収後に不具合が見つかった場合の責任です。検収が成立しても、その後に発見された不具合への責任（契約不適合責任）まで直ちに免除されるわけではありません。改正民法では、不具合の発覚から一定期間（通知して1年以内など、契約条件による）、修正などを求められる場合があります（契約不適合責任の考え方）。とはいえ、検収後の対応は交渉や立証の手間がかかるため、「とりあえず検収して、問題があれば後で言えばいい」と考えるのは得策ではありません。検収の段階でしっかり確認しておくことが、結局はいちばんの近道です。

まとめ

AIシステムの検収は、従来の「動けばOK」という基準が通用しないため難しく感じられますが、整理すれば発注者自身で十分に進められます。本記事のポイントを振り返ります。

AIは構造的に一定割合で間違えるため、「100点」ではなく「業務で使える合格ライン」で判断する
検収は3フェーズ（事前準備 → 機能・精度検証 → エッジケース・偏り検証）に分けて計画する
確認すべきは4つの軸（機能要件・精度・エッジケース・バイアス）。このうちAI特有の3軸を重点的に見る
精度測定の成否は評価用データで決まる。「学習と分離・本番に近い・正解あり」の3条件を満たすデータを業務側で準備する
指標（正解率・適合率・再現率）は業務リスクに翻訳して使い分け、合格ラインは業務目標から逆算して決める
チェックリストで漏れなく確認し、合格ラインとのギャップを数値で示せば、不合格時も建設的に開発会社と話せる

最後に、次の一歩として確認してほしいことがあります。それは「合格基準が、開発会社ときちんと合意できているか」です。検収段階で合格ラインが曖昧なら、検収を急ぐ前に、まず基準のすり合わせから始めてください。性能基準を契約前にどう合意しておくべきかは、AI精度保証とは？発注者が契約前に合意すべき性能基準の決め方で詳しく解説しています。基準さえ明確になれば、本記事の手順とチェックリストで、あなた自身の判断で検収を進められるはずです。

—Free Download / 資料ダウンロード

システム開発完全チェックリスト――発注前・発注中・完了後の3フェーズで使えるチェック集

この資料でわかること

こんな方におすすめです

初めてシステム開発を外注する担当者
過去の発注で失敗を経験した方
ベンダー選定の基準が分からない方

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。

—AI Development / AI開発

ビジネスに、
実用的なAIを。

生成AI・LLM活用から、データ分析基盤、機械学習モデル開発まで。事業課題に直結するAIソリューションを設計・実装します。

ScopeLLM・生成AI・データ活用

PhasePoC・本番導入まで支援

Trial初回相談は無料です

AI Development

無料相談をはじめるサービス詳細を見る

Generative AI · LLM · Data

よくある質問

評価用データは開発会社に用意してもらってよいですか？: 開発会社に依頼することは可能ですが、「正解ラベルの最終判定」は業務を知る発注者側が行うことを強くおすすめします。評価データの妥当性（学習データと分離されているか、本番に近いか）は開発会社に確認しつつ、正解かどうかの判断は業務担当者が自ら下すことで、精度数値の信頼性が担保されます。
契約前に合格ラインを合意していませんでした。今から決めることはできますか？: 検収段階でも合格ラインの合意は可能です。ただし、合意のないまま検収を進めると「言った・言わない」のトラブルになりやすいため、まず開発会社と合格基準を文書で取り決めてから検収作業を始めてください。合格ラインは業務目標から逆算して発注者側が主導して決めるものです。
生成AIの採点シート評価で、評価者によって判断がバラつきます。どう対処すればよいですか？: 採点基準を事前に「許容できる回答」と「NG回答」の具体例付きで文書化することが根本的な対処です。それでも判断が分かれるケースは「AIにとっても難しいデータ」として記録し、不合格判定の根拠を開発会社に提示する際の参考にします。評価者間の不一致が多い場合は、評価基準そのものを見直すサインでもあります。
開発会社が提示してきた精度の数値はそのまま信頼してよいですか？: 必ず評価条件を確認してください。「学習データと評価データが分離されているか」「本番に近いデータで測定されているか」「正解ラベルが業務基準で付与されているか」の3点を満たしていなければ、数値が実際より高く出ている可能性があります。条件が不明な場合は開発会社に説明を求めてください。
みなし検収の期間内に作業が終わらない場合はどうすればよいですか？: 期間内に「検収作業中であり、まだ合否を判断できていない」旨を書面で開発会社に通知することが重要です。沈黙は合格とみなされる場合があるため、不合格通知だけでなく「判断保留の通知」も期間内に行ってください。必要であれば検収期間の延長を合意するよう交渉することも選択肢です。

Contents — 目次

AIシステムの検収が従来システムより難しい理由
AIシステムの検収を進める3つのフェーズ
テストデータの準備（評価用データセットの作り方）
AI検収の評価指標と精度の測り方（非エンジニア向け）
AI検収チェックリスト（発注者が自力で確認する項目）
検収の合否判断と、不合格時に開発会社へ求めること
まとめ

—Free Download / 資料ダウンロード

システム開発完全チェックリスト――発注前・発注中・完了後の3フェーズで使えるチェック集

この資料でわかること

こんな方におすすめです

初めてシステム開発を外注する担当者
過去の発注で失敗を経験した方
ベンダー選定の基準が分からない方

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。