AI 評価指標とは？発注者が知るべき種類・選び方・活用法を解説

AIシステムの開発を外注した後、ベンダーから「モデルの精度は92%に達しました」という報告を受けたとき、あなたはすぐに「それは良い数字だ」と判断できますか？

多くのビジネス担当者にとって、この質問への答えは「わからない」ではないでしょうか。AIモデルの性能は「精度」という一言で表せるほど単純ではなく、用途によっては精度90%超のモデルが実際の業務でまったく役に立たないケースも存在します。

しかし、安心してください。AIの評価指標は難しい数式を覚えなくても、「何を測っているか」「どんなAIに向いているか」を理解するだけで、ベンダーの説明を正確に読み解けるようになります。

本記事では、AI評価指標の主要な種類（正解率・再現率・適合率・F値・AUC、回帰指標、生成AI指標）の意味と使い分けを、AI開発を発注・管理する立場の担当者向けに解説します。記事の最後には、発注・検収の場面で実際に使えるチェックリストも掲載しています。

Contents — 目次

AIの評価指標とは？なぜ「精度ひとつ」では判断できないのか
分類問題の主要な評価指標を発注者向けに解説
回帰問題の評価指標（数値予測AIに使われる指標）
生成AI・LLMの評価指標入門（発注者が知っておくべき基礎）
AI開発の発注・検収で評価指標をどう活かすか
まとめ——発注者のためのAI評価指標チェックリスト

—Free Download / 資料ダウンロード

はじめての AI 導入ガイド――中小企業が失敗しないための7ステップ

この資料でわかること

AI導入を検討しているが「何から始めればよいか分からない」中小企業の意思決定者に対し、導入プロジェクトの全体像を一気通貫で提示し、「自社でも着手できる」という確信と具体的な行動計画を持ってもらうこと。

こんな方におすすめです

AI導入を検討しているが、何から始めればよいか分からない
ベンダーの選び方や費用感がつかめず、判断できない
社内でAI導入の稟議を通すための資料が必要

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。

AIの評価指標とは？なぜ「精度ひとつ」では判断できないのか

評価指標とは「AIモデルの出来を数値化する基準」

AI評価指標とは、機械学習モデルの性能を定量的に測るための指標（ものさし）のことです。AIモデルは「この画像はネコか否か」のような二値判断から、「来月の売上はいくらか」のような数値予測まで、多種多様なタスクを解きます。タスクの種類や用途によって「何をもって良いモデルと言うか」が異なるため、評価指標も複数種類が存在します。

発注者の立場から見ると、評価指標には主に次の2つの役割があります。

要件定義での品質基準設定: 「このAIには○○が▲▲%以上であることを求める」と発注時に明確に定義するための言語
成果物の検収基準: 納品されたAIモデルの品質が要件を満たしているか確認するための判定軸

評価指標を知らずにAI開発を外注すると、要件が曖昧になり、後で「精度は高いのにビジネスで使えない」というトラブルが生じるリスクがあります。

「正解率99%」が意味しない理由——不均衡データの落とし穴

AIの評価指標でもっとも有名な「正解率（Accuracy）」に、大きな落とし穴があることをご存知でしょうか。

たとえば、1,000件のデータのうち990件が「正常」で10件が「不正」という不正検知システムを考えてみましょう。このとき、「すべて正常と判定する」という何もしないAIモデルを作ると、正解率は 99% になります。しかし、このAIは不正を1件も検知できていません。

これが「精度99%なのに使えないAI」の典型例です。多数派のデータに偏ったデータセット（不均衡データ）では、正解率だけで性能を判断するのは危険です。

発注者のチェックポイント: ベンダーから「正解率○○%」の報告を受けたとき、必ず「データのクラスバランスはどの程度ですか？」と確認しましょう。不均衡データを扱うAI（不正検知・異常検知・医療診断など）では、後述する「再現率」や「F値」を中心に評価する必要があります。

AI開発の受発注でなぜ評価指標を理解すべきか

2025年2月、経済産業省は「AIの利用・開発に関する契約チェックリスト」を公表しました。このチェックリストでは、AI開発の外注において「完成条件（検収条件等）の設定」が重要なチェックポイントとして明示されています。

評価指標は、この「完成条件」を定義するための核心的な要素です。発注者が評価指標を理解することで、以下が実現できます。

要件定義書に具体的な品質基準を記載できる（「正解率○○%以上」だけでなく、用途に合った指標と目標値を設定）
ベンダーからの報告を正確に読み解ける（どの指標で測ったのか、なぜその指標を選んだのかを確認できる）
検収時に客観的な判定ができる（感覚ではなく数値で合否を判断できる）

分類問題の主要な評価指標を発注者向けに解説

「メールがスパムか否か」「画像に犬が映っているか否か」「この取引が不正か否か」のように、データをいくつかのカテゴリに分類するAIを「分類モデル」といいます。AIシステムの多くは分類モデルを使っており、ここで紹介する指標は最もよく遭遇するものです。

正解率（Accuracy）——最もシンプルな指標とその限界

正解率とは: 全予測件数に対して、正しく予測できた件数の割合です。

計算のイメージ: 100件を予測して80件が正解なら、正解率80%

向いているケース: データの各クラスがほぼ均等な場合（例: 顧客の商品カテゴリ分類など）

向いていないケース: 前述の不均衡データ（不正検知、異常検知、希少疾患の診断など）

発注時の注意点: 正解率単独での評価は不均衡データで失敗するため、後述の再現率・適合率との組み合わせが必要です。

適合率（Precision）——「スパム誤検出」を防ぎたいときの指標

適合率とは: 「陽性と予測したデータのうち、実際に陽性だった割合」です。誤検出（本当は陰性なのに陽性と判定すること）を減らしたいときに重視する指標です。

ビジネスでの例:

スパムメールフィルター: 重要なメールがスパムに分類されると困る → 適合率を高める（「スパムと判定した中でスパムである割合」を上げる）
求人マッチング: 不適切な求人が表示されると体験が悪い → 適合率重視

適合率が高い = 「陽性と判定したものは、ほぼ確実に陽性」を意味します。ただし、適合率だけを上げると、「確実に陽性のものしか陽性と判定しない」という慎重すぎるモデルになりやすく、見逃しが増えます。

再現率（Recall）——「見逃し」を防ぎたいときの指標

再現率とは: 「本当に陽性のデータのうち、正しく陽性と予測できた割合」です。見逃し（本当は陽性なのに陰性と判定すること）を減らしたいときに重視する指標です。

ビジネスでの例:

不正検知システム: 不正を見逃すと大きな損害が発生する → 再現率を高める（「本物の不正のうち、何%を検知できるか」を上げる）
がん検診のAI診断: 見逃しが命取りになる → 再現率最優先
設備の異常検知: 異常を見逃すと設備故障・事故につながる → 再現率重視

再現率が高い = 「本当の陽性をほぼ見逃さない」を意味します。

適合率と再現率のトレードオフ

適合率と再現率はトレードオフの関係にあります。一方を高めようとすると、もう一方が下がりやすいという性質があります。

優先する指標	起きること
適合率優先	「これは確実に陽性」と思うときだけ陽性と判定 → 見逃しが増える（再現率低下）
再現率優先	「少しでも怪しければ陽性」と判定 → 誤検出が増える（適合率低下）

SCROLL→

発注者として重要なのは、自社のビジネスでコストが高いのは「誤検出」か「見逃し」かを先に判断し、優先する指標を要件に明記することです。

F値（F1スコア）——適合率と再現率のバランスを測る指標

F値とは: 適合率と再現率の「調和平均」をとった指標です。どちらかが極端に低いと、F値も低くなります。適合率・再現率の両方をバランスよく高くしたいケースで使います。

F値が向いているケース: 特定のクラスを特に重視する理由がなく、適合率・再現率の両方をバランスよく改善したい場合（例: テキスト分類、マルチカテゴリ分類など）

発注時のポイント: 「適合率も再現率も同じくらい重要」という場合はF値を要件に設定する。どちらかが特に重要な場合は、F値ではなくその指標を直接要件に設定する。

AUC・ROC曲線——「モデルの総合的な性能」を把握する指標

AUCとは: 「Area Under the Curve（曲線の下の面積）」の略です。分類閾値を変化させたときのモデルの性能変化をROC曲線として描き、その面積（AUC）で総合的な性能を評価します。

ビジネスでの読み方:

AUC = 1.0: 完全に正しく分類できる完璧なモデル
AUC = 0.5: ランダムに分類するだけで意味がないモデル
AUC > 0.8: 概ね実用に耐えるとされる目安（用途による）

AUCが向いているケース: 分類の閾値を後から調整したい場合（例: 「誤検出を減らしたいときは閾値を上げる、見逃しを減らしたいときは下げる」という運用をする場合）、モデル選定・比較の指標として

回帰問題の評価指標（数値予測AIに使われる指標）

「来月の売上はいくらか」「明日の気温は何度か」「この商品の需要は何個か」のように、数値を予測するAIを「回帰モデル」といいます。需要予測・売上予測・在庫最適化・価格最適化などでよく使われます。

MAE（平均絶対誤差）——「平均して何円ズレているか」で理解するシンプルな指標

MAEとは: 予測値と実際の値の差（ズレ）の平均です。単位がデータの単位と同じなので解釈しやすい指標です。

ビジネスでの例: 「売上予測AIの MAE が 50万円」= 平均して50万円ほどズレている、ということを意味します。この解釈のシンプルさがMAEの最大のメリットです。

特徴: 外れ値（極端に大きなズレ）が起きても、それほど大きく影響しません。「たまに大外れしても、普段のズレが小さければよい」という場合に適しています。

RMSE（二乗平均平方根誤差）——大きいズレをより重く評価する指標

RMSEとは: 予測値と実際の値の差を二乗して平均した後、平方根をとった値です。MAEと同様にデータの単位と同じ尺度で表現でき、大きなズレをより重く評価する点がMAEとの違いです。

ビジネスでの例: 「売上予測のRMSEが80万円」= 大きなズレが発生したとき（外れ値）も含めて評価した誤差が80万円規模、ということを意味します。

特徴: 「大外れを特に許容できない」ビジネス（例: 在庫を持ちすぎると廃棄コストが発生するケース、発電量予測など）ではRMSEを重視する選択が有効です。

R²（決定係数）——「予測がどれくらい当たっているか」のパーセント感覚

R²とは: モデルの予測がデータの実際のばらつきをどれくらい説明できているかを示す指標です。0〜1の範囲（場合によりマイナスにもなる）で表し、1に近いほど良いモデルです。

ビジネスでの読み方: 「R² = 0.85」= モデルが実際の変動の85%を説明できている、と解釈できます（完全な一致はR²=1）。

発注時のポイント: R²が0.7〜0.8以上あれば実用的なモデルとされることが多いですが、業種・用途・データ特性によって基準は変わります。発注時にベンダーと「どの程度のR²を目標とするか」を事前合意しておくことが重要です。

生成AI・LLMの評価指標入門（発注者が知っておくべき基礎）

ChatGPTに代表される生成AI・大規模言語モデル（LLM）を活用したシステムを外注・SaaS導入する際にも、評価指標の知識は役立ちます。生成AIの評価は分類・回帰とは異なる難しさがありますが、発注者として知っておくべき基本を解説します。

テキスト生成の評価指標——BLEU・ROUGEとは何か

BLEU（ブルー）: 機械翻訳・要約などで使われる自動評価指標です。「生成されたテキストと正解テキストの間で、単語の並び（n-gram）がどれくらい一致しているか」を測ります。

ROUGE（ルージュ）: 要約タスクで広く使われる指標です。BLEUが「生成テキストの精度（適合率寄り）」を測るのに対し、ROUGEは「正解テキストのどれくらいをカバーできているか（再現率寄り）」を測ります。

発注者への注意点: BLEUやROUGEは「正解テキストに似ているか」しか測れません。文法が自然か、事実が正確か、有害な内容がないか、などは測定できません。生成AIの評価はこれらの自動指標だけでは不十分であり、後述の人手評価や LLM-as-a-Judge との組み合わせが必要です。

意味的正確性を測る——BERTScoreとLLM-as-a-Judgeの基礎

BERTScore: 単語の一致率だけでなく、AIが文章の「意味的な類似度」を計算して評価します。「同じ意味を別の表現で言っている」ケースを正しく評価できるのが特徴です。

LLM-as-a-Judge: 別のLLM（例: GPT-4）を「審判」として使い、生成AIの出力品質を自動評価する手法です。人手評価に近い柔軟な評価が可能ですが、審判AIの偏りや一貫性の問題もあります。

2026年のベストプラクティス: BLEU/ROUGEのような古典的指標、BERTScoreのような意味的指標、LLM-as-a-Judgeを組み合わせることが業界標準です（renue.co.jp）。

LLMのベンチマーク（MMLU等）——カタログスペックの読み方

LLMの「性能」を示す際、ベンダーはMMLU（Massive Multitask Language Understanding）などのベンチマークスコアを提示することがあります。

MMLUとは: 様々な分野（数学・科学・歴史・法律など）の問題をLLMに解かせ、その正解率で知識・推論能力を評価するベンチマークです。

発注者への注意点:

ベンチマークスコアが高くても、自社の具体的な業務タスクに適しているとは限りません
「汎用的なベンチマーク」と「自社業務への適用性」は別物です
実際の導入前に、自社の業務データや想定プロンプトを使ったPoC（概念実証）でのスコア確認を依頼することが重要です

AI開発の発注・検収で評価指標をどう活かすか

ここまで評価指標の種類と意味を解説しました。このセクションでは、評価指標の知識を「実際の発注・検収の場面」でどう使うか、具体的な方法をお伝えします。

要件定義書に評価指標をどう書くか——「正解率○○%以上」は不十分な理由

多くのAI開発の失敗事例で見られるのが、要件定義書に「正解率○○%以上」とだけ記載されているケースです。これが不十分な理由を整理します。

「正解率○○%以上」だけでは不十分な理由:

不均衡データで正解率が高くても意味がない（前述の99%問題）
「正解率」が何を意味するかベンダーにより解釈が違う場合がある
評価に使ったデータセットの条件が不明だと比較できない

要件定義書への評価指標の書き方（推奨フォーマット）:

text

【評価指標要件】
評価指標: [指標名]（例: 再現率 / F値 / RMSE）
目標値: [数値]以上（例: 再現率 0.85 以上）
評価データ: [データの条件]（例: 過去12ヶ月の実データからランダムサンプリングした10,000件）
クラスバランス: [不均衡比率があれば記載]（例: 正常：異常 = 99:1）
補足: [その他の条件]（例: 閾値は 0.5 とする）

なお、評価指標を含むAI開発の要件定義書全体の書き方については、AIプロジェクトの要件定義ガイドで詳しく解説しています。テンプレート・チェックリストも掲載していますので、あわせてご参照ください。

ベンダーが提示する評価指標の数字の見方——「どのデータで測ったか」が重要

ベンダーから「精度○○%を達成しました」という報告を受けたとき、確認すべき4つのポイントを示します。

1. 何の指標か確認する 「精度」という言葉は「正解率」を指す場合も「適合率」を指す場合もあります。必ず「正解率（Accuracy）ですか、それとも別の指標ですか？」と確認してください。

2. どのデータで評価したか確認する モデルの学習に使ったデータ（訓練データ）と、評価に使ったデータ（テストデータ）は別のデータを使うのが原則です。「訓練データで評価した指標」はモデルの実際の性能を反映しておらず、意味がありません。「テストデータ（未知のデータ）で評価した結果ですか？」と確認してください。

3. データのクラスバランスを確認する 不均衡データを扱う場合（前述の通り）、データのバランスも確認してください。

4. 複数の指標をセットで確認する 正解率だけでなく、用途に応じた再現率・適合率・F値も合わせて報告を求めましょう。

用途別・業種別の評価指標選定ガイド

自社のAI活用用途に合わせた評価指標の選び方をまとめます。

用途・業種	推奨指標	理由
不正検知・異常検知	再現率優先 + F値	見逃しのコストが高いため。1件の見逃しが大きな損害につながる
スパムフィルター・誤検出防止	適合率優先 + F値	誤検出（正常をスパムと判定）が信頼性低下につながる
医療診断AI	再現率最優先	病気の見逃しが命に関わる。適合率は二次的
需要予測・在庫最適化	MAE + RMSE + R²	ズレの大きさを実際のコストに換算して評価できる
売上・価格予測	RMSE + R²	外れ値（大外れ）を重く評価するRMSEが適切
テキスト分類・カテゴリ分類	F値（マクロ平均）+ AUC	クラスバランスが偏っている場合はF値、閾値最適化が必要な場合はAUC
チャットボット・FAQ生成AI	BERTScore + 人手評価	自動指標のみでは不十分。サンプリングによる人手確認が必要
文書要約AI	ROUGE + 人手評価	要約の網羅性（再現率）を自動評価しつつ、品質は人手でも確認

SCROLL→

検収書類に評価指標を記載するときの3つのポイント

1. 指標名・目標値・測定条件をセットで記載する 「再現率90%以上」だけでなく、「どのデータで測るか」「どの閾値を使うか」を明記します。

2. NG基準（必須）とOK基準（推奨）を分けて設定する 「再現率85%以上が必須（NG基準）、90%以上が目標（推奨基準）」のように分けると、受入可否の判断がクリアになります。

3. 測定はベンダーと発注者双方の立会いで実施する 可能であれば、テストデータを発注者側で準備・提供し、ベンダーによる評価の場に発注者も立ち会います。これにより「テストデータを見て調整した」というカンニング問題を防げます。

まとめ——発注者のためのAI評価指標チェックリスト

本記事では、AI評価指標の主要な種類と意味、そして発注・検収場面での実務活用方法を解説しました。最後に、AI開発の発注・検収時に活用できるチェックリストをまとめます。

【発注前・要件定義フェーズ】

□ 自社のAI活用用途を明確にしたか（分類問題か回帰問題か生成AIか）
□ 用途に合った評価指標を1〜2つ選定したか（上の表を参照）
□ 不均衡データの可能性を確認したか（正常・異常の比率はどの程度か）
□ 誤検出と見逃しのどちらが自社にとってコストが高いかを判断したか
□ 要件定義書に「指標名・目標値・評価データ条件」をセットで記載したか

【開発中・中間報告フェーズ】

□ ベンダーが使っている指標が要件定義書と一致しているか確認したか
□ 評価に訓練データでなくテストデータを使っているか確認したか
□ データのクラスバランスを把握しているか
□ 複数の評価指標（正解率だけでなく再現率・適合率も）の報告を求めたか