AI開発でデータ不足と言われたら？発注者が取るべき5つの選択肢

AI開発を発注したプロジェクトの中間報告で、「データが足りないので想定精度に届きません」と言われ、追加データ収集の見積りを渡されて困っていませんか。社内にデータサイエンティストがいない発注者にとって、この言葉は受け取り方が非常に難しい一言です。

「データ不足」は、開発会社にとっては技術的な事実の説明ですが、発注者にとっては「追加投資すべきか／スコープを縮めるべきか／そもそも別の手法を試すべきか」という意思決定に直結する重い問いです。にもかかわらず、開発会社の説明は「機械学習にはたくさんのデータが必要だ」という一般論で終わってしまうことが少なくありません。

問題は、発注者側に「データ不足」の中身を分解する語彙と判断軸がないことです。データの量が足りないのか、質が足りないのか、特定カテゴリのデータだけが偏っているのか。それぞれで取るべき打ち手は大きく変わります。

本記事では、開発会社から「データが足りない」と言われたときに、発注者として確認すべきこと・取り得る選択肢・撤退判断の基準を、技術的な深掘りではなく意思決定の流れに沿って整理します。読み終えたあと、次の打ち合わせで開発会社に対して具体的な質問を投げ返し、選択肢を比較したうえで社内で意思決定できる状態を目指します。

なお、AI学習データそのものの基礎概念（教師あり学習・ラベル・データ品質など）については、AI学習データの基礎で発注者向けにまとめています。前提知識を確認したい方は併読をおすすめします。

Contents — 目次

「データが足りない」と言われたら、最初に確認すべきこと
AI開発に必要なデータ量と質の目安
開発会社に確認すべき5つの質問
取りうる5つの選択肢と判断軸
選択肢を組み合わせる「現実解」の作り方
「ここで撤退・スコープ縮小すべき」と判断する基準
データ不足を未然に防ぐための発注前チェックポイント
まとめ：「データ不足」を発注者の判断軸に翻訳する

—Free Download / 資料ダウンロード

はじめての AI 導入ガイド――中小企業が失敗しないための7ステップ

この資料でわかること

AI導入を検討しているが「何から始めればよいか分からない」中小企業の意思決定者に対し、導入プロジェクトの全体像を一気通貫で提示し、「自社でも着手できる」という確信と具体的な行動計画を持ってもらうこと。

こんな方におすすめです

AI導入を検討しているが、何から始めればよいか分からない
ベンダーの選び方や費用感がつかめず、判断できない
社内でAI導入の稟議を通すための資料が必要

詳しく見る

フォームから無料ダウンロード

お名前必須

会社名必須

メールアドレス必須

電話番号任意

ご質問・ご要望任意

プライバシーポリシーに同意の上、送信します。

入力いただいたメールアドレスにPDFをお送りします。

「データが足りない」と言われたら、最初に確認すべきこと

「データが足りない」という言葉は、技術的にはまったく異なる4種類の状況を指している可能性があります。最初に必要なのは、即断で追加予算を承認することでも、プロジェクトを止めることでもなく、「足りないとは具体的に何が足りないのか」を構造化して捉え直すことです。

「データが足りない」が指す4つの意味

開発会社が「データ不足」と言うとき、実際に意味している内容は次の4つに分けて整理できます。

量が足りない: そもそも学習に使えるデータ件数が少ない（例: 1業務年の取引データしかない、撮影画像が数十枚しかない）
質が足りない: 件数はあるがラベルの精度が低い、ノイズが多い、入力欠損が多い
種類（カテゴリ）が足りない: 全体件数は十分だが、特定の予測対象カテゴリのデータがほとんどない（例: 不良品検知で正常品ばかりで不良品サンプルが少ない）
偏り（バイアス）がある: データは取れているが、本番運用環境と分布がずれている（例: 関東圏の顧客データのみで全国向けモデルを作ろうとしている）

この4つは打ち手がまったく違います。量不足なら追加収集・合成データ・データ拡張、質不足ならラベル付け直しやクレンジング、種類不足なら不足カテゴリの集中収集、偏り問題ならサンプリング設計の見直しが必要です。「データ不足」とひとくくりにされた状態のまま追加予算を投じても、原因と打ち手がずれていれば成果は出ません。

発注者がやってはいけない3つの初動

発注者が陥りがちな失敗パターンを3つ挙げます。次の打ち合わせまでに、自分が無意識にこの動きをしていないか確認してください。

即座に追加データ収集予算を承認してしまう: 「データを増やせば精度が上がる」というのは一見もっともらしい主張ですが、上で述べた「質」や「偏り」の問題であれば、量を増やしても改善しない場合があります。原因分解せずに予算承認すると、二重三重の追加投資につながります。
開発会社の見積りや提案をそのまま社内稟議に上げる: 開発会社にとって追加データ収集・追加アノテーションは追加売上です。提案内容に悪意がなくとも、「追加収集」が真っ先に出てくる構造的バイアスがあることは理解しておくべきです。
一気にプロジェクトを中止する: 一方で逆方向の失敗もあります。「データ不足」という説明を受けて、過剰反応で全面中止を決めてしまうケースです。スコープを縮めて小さく成立させる選択肢を検討せずに止めるのはもったいない判断です。

ここから先のセクションでは、まず「データ量と質の一般的な目安」を押さえたうえで（H2-2）、開発会社に投げ返すべき具体的な質問（H2-3）、取り得る5つの選択肢（H2-4・H2-5）、撤退判断基準（H2-6）、次回プロジェクトでの予防策（H2-7）の順に整理していきます。

AI開発に必要なデータ量と質の目安

「データが足りない」と言われたとき、発注者が最初に欲しいのは「世の中の標準と比べて、自分たちのデータ量は本当に少ないのか」という比較感覚です。ここでは絶対的な正解はないものの、議論のたたき台になる目安を紹介します。

量の目安：タスク別の参考値

機械学習の初学者向けによく引用される経験則に「バーニーおじさんのルール」があります。これはニューラルネットワークの重みパラメータ数の最低10倍の訓練データが必要、とする経験則です（バーニーおじさんのルール｜＠IT）。あくまで古典的な目安で、近年の深層学習には必ずしも当てはまりませんが、「説明変数（モデルが扱う特徴量）の規模に対して桁感が合っているか」を素早くチェックするには有効です。

タスク別のおおまかな目安としては、以下のような数字がよく言及されます。

構造化データ（表形式）の予測モデル: 数百〜数千件で PoC レベル、数万件で本番運用レベル
画像分類（ディープラーニング）: クラスあたり1,000〜10,000枚が一般的な目安。顔認識など精度要求が高いタスクでは10万枚以上が必要になるケースもある（ディープラーニングの画像認識に用いるデータ数について｜新潟県工業技術総合研究所）
自然言語処理（分類タスク）: クラスあたり数百〜数千件が PoC レベルの目安。LLMを活用する場合はゼロショット・少数事例で動かせるケースもある

これらは「絶対基準」ではなく、目標精度・タスク難易度・データの多様性で大きく変わります。たとえば「画像分類で1,000枚必要」と言っても、品種が3クラスなら成立しやすく、20クラスならクラスあたり1,000枚では足りません。

質の目安：ラベル精度・ノイズ・代表性

量と同じくらい、あるいはそれ以上に重要なのが質です。質は次の3観点で評価できます。

ラベル精度: 教師あり学習なら「正解ラベル」がどれだけ正しく付与されているか。アノテーター間の一致率（複数人で同じデータにラベルを付けて、何%一致するか）が指標になります。一致率が70%を下回るタスクは、そもそも問題設定の見直しが必要な可能性があります。
ノイズ: 入力データの欠損・誤入力・センサーノイズ・撮影ブレなど。データクリーニングのコストは件数比例で増えるため、件数を増やすほどノイズの絶対量も増えます。
代表性（カバレッジ）: 本番運用で発生する状況を、学習データがどれだけ網羅できているか。季節変動・地域差・時間帯・機材の違いなどがカバーされていない場合、本番投入後に精度が大きく落ちます。

量より質が効くケース／質より量が効くケース

発注者が押さえておきたいのは、「量を増やすべきか質を上げるべきか」は状況依存だということです。

量より質が効くケース: タスクが明確で、ラベル定義が曖昧、または既存データのノイズが多い場合。ラベル定義を見直す・既存データをクレンジングするほうが、件数を増やすより費用対効果が高いことが多いです。
質より量が効くケース: タスクの多様性が高く、本番環境で予測対象が広範囲にわたる場合。たとえば全国の顧客を対象とする予測モデルなのに学習データが一部地域に偏っているケースでは、不足地域のデータ追加が必須です。

AI学習データの品質管理の具体的な観点については、AI学習データの基礎で詳しく解説しています。ラベル設計やアノテーション品質の評価方法を確認したい方は併読してください。

開発会社に確認すべき5つの質問

「データが足りない」という説明を受けたとき、発注者として開発会社に投げ返すべき質問を5つに整理します。質問の意図と、回答から読み取るべきポイントをセットで示します。

質問1: 「どの種類のデータが、どの程度足りていないのですか？」

意図: H2-1で示した4つの観点（量・質・種類・偏り）のうち、どれが原因なのかを開発会社に分解して説明してもらうための質問です。

期待する回答の形: 「全体件数は十分ですが、不良品クラスのサンプルが現状20件しかなく、クラスあたり最低500件は欲しいです」のように、観点・現在の数値・必要数値の3点が具体的に揃った回答。

回答から読み取る判断軸: 「データが少ないので」とだけ繰り返される場合は、原因分析がまだ十分でない可能性があります。具体数値が出てこない場合は、追加投資の根拠が薄いと考えるべきです。

質問2: 「現状のデータでどこまでの精度が出ていて、追加データでどこまで改善する見込みですか？」

意図: 追加投資の費用対効果を判断する材料を引き出す質問です。「データを増やせば精度が上がる」は感覚論であり、どこまで上がるかは別問題です。

期待する回答の形: 「現状の検証データで精度70%、ラーニングカーブの傾向から追加500件で75%、1,000件で77%程度まで頭打ちすると見ています」のように、現状値・予測値・頭打ちの見立てがある回答。

回答から読み取る判断軸: 改善見込みが「やってみないと分からない」しか返ってこない場合、追加投資はギャンブルになります。ラーニングカーブ（データ量と精度の関係）を出してもらえないかリクエストするのも有効です。

質問3: 「データ追加以外の選択肢（合成データ・データ拡張・転移学習）は検討しましたか？」

意図: 追加収集が「唯一の選択肢」ではないことを開発会社に明示し、代替手段の比較検討を促す質問です。

期待する回答の形: 「合成データは検討しましたが、本タスクは医療画像で病変パターンの再現性が必要なため適用しませんでした」のように、検討したうえで採用しなかった理由が説明される回答。

回答から読み取る判断軸: 「検討していません」と返ってきた場合、検討してもらう余地があります。「検討したが不適」の場合は、不適と判断した根拠が妥当かをセカンドオピニオン的に確認してもよいでしょう。合成データの考え方については合成データの活用も参考になります。

質問4: 「目標精度を下げる、タスクを分割するなどスコープ調整の余地はありますか？」

意図: 「最初に決めた目標」が現状のデータで届かない場合、目標の見直しも選択肢の一つであることを共有する質問です。

期待する回答の形: 「目標精度を90%から85%に下げれば現状データでも到達可能です」「タスクを2段階に分けて、1段目を人手レビュー・2段目をAI判定にすればAI部分の精度要求は下げられます」のように、具体的な調整案が出てくる回答。

回答から読み取る判断軸: 開発会社からスコープ調整案が一切出てこない場合、発注者側から「タスクの一部だけでも先に成立させる」「目標値を段階的に達成する」といった案を提示してみる価値があります。

質問5: 「追加データ収集にかかる期間・コスト・前提条件は何ですか？」

意図: 追加投資の具体的なコストと、それを成立させる前提条件（例: 現場での撮影協力・既存業務の改修）を確認する質問です。

期待する回答の形: 「画像撮影は現場での3ヶ月作業で約300万円、アノテーション費用が約150万円、合計で4ヶ月・450万円を見込んでいます。前提として、対象設備のラインを停止せずに撮影できる体制が必要です」のように、期間・金額・前提条件の3点が揃った回答。

回答から読み取る判断軸: 期間や前提条件が抜け落ちている見積りは要注意です。とくに「現場の協力が必要」という前提が見落とされると、後から「データが取れません」という二次的な問題が発生します。

取りうる5つの選択肢と判断軸

ここからは、「データが足りない」と判明した後に取れる代表的な選択肢を5つ整理します。それぞれのコスト感・期間・前提条件を比較し、最後に表形式でまとめます。

選択肢1：社内データの整備・追加収集

最も素直な選択肢は、社内で追加データを収集することです。具体的には次のような打ち手があります。

紙の帳票・FAXで届く受発注データのデジタル化
既存システムのログ取得期間の延長（例: 1ヶ月分しか残していないログを6ヶ月分蓄積する）
現場での画像撮影・センサー設置による新規データ取得
既存データへの追加アノテーション（ラベル付け）

向くケース: データ取得元（社内設備・既存システム）にアクセスでき、運用フローを変更する余地がある場合。

コスト感: 紙データのデジタル化やアノテーション外注なら100〜500万円規模、現場でのセンサー設置や撮影体制構築まで含めると数百万〜数千万円規模になります。

期間: 数ヶ月〜半年。ログ蓄積期間の延長など「待ち時間」が必要な場合はさらに長くなります。

選択肢2：外部データの活用

社内データだけでは不足する場合、外部データソースを活用する選択肢があります。

オープンデータ: 政府統計・気象データ・地理空間情報など、無償で利用できる公開データ
購入データ: POSデータ・人流データ・SNS分析データなど、データプロバイダーから購入できる商用データ
スクレイピング: Webサイトから取得する公開情報（利用規約・著作権・個人情報の扱いに注意）

向くケース: 予測したい現象が外部要因（天候・人流・市場動向）に強く依存する場合や、業界共通のベンチマークデータが存在する場合。

コスト感: オープンデータは無償。商用データ購入は年間数百万〜数千万円規模になることが多いです。スクレイピングは技術的には安価ですが、法的リスクと運用負荷の評価が必要です。

期間: オープンデータの組み込みなら数週間。商用データは契約交渉に数ヶ月かかることがあります。

注意点: 外部データを使う場合、本番運用で継続的にデータを取得できるかを必ず確認してください。PoC時だけ使える特殊なデータでは、本番運用に移行できません。

選択肢3：合成データ・データ拡張で水増しする

実データが足りない場合、合成データ生成やデータ拡張で学習用データを「水増し」する選択肢があります。

データ拡張（Data Augmentation）: 画像の回転・反転・明度変更、テキストの言い換えなど、既存データに変形を加えてバリエーションを増やす手法
合成データ生成: シミュレーション・生成モデル（GAN・Diffusion等）でゼロから人工データを作る手法

向くケース: 画像・センサーデータなど、データ拡張の効果が出やすい分野。実データの取得コストが極めて高い分野（医療・自動運転）。

コスト感: データ拡張は既存ライブラリで実装でき、追加コストは小さい（数十万円規模）。合成データ生成は専門技術が必要で、要件次第で数百万〜数千万円規模になります。

期間: データ拡張は数週間〜1ヶ月。合成データ生成は要件設計から数ヶ月。

注意点: 合成データは「実データの代替」として完全ではありません。本番環境の現象を再現できているかの検証が必須です。合成データの考え方・限界については合成データの活用で詳しく解説しています。

選択肢4：転移学習・事前学習済みモデルで必要データ量を減らす

「データを増やす」のではなく、「必要なデータ量自体を減らす」アプローチも有力な選択肢です。代表的なのが転移学習と事前学習済みモデルの活用です。

転移学習: 大規模データで学習済みのモデルを土台にして、自社の少量データで微調整（ファインチューニング）する手法
事前学習済み大規模モデルの活用: LLM（大規模言語モデル）や画像基盤モデルをそのまま、または少量データで調整して利用する手法

向くケース: 画像分類・自然言語処理など、事前学習済みモデルが豊富に公開されているタスク。

コスト感: モデル選定・調整作業で数百万円規模。商用LLMのAPI利用なら月額数万〜数十万円。

期間: 1〜3ヶ月。事前学習済みモデルが既に手元にあれば数週間で動くケースもあります。

注意点: 事前学習済みモデルの学習データに自社タスクと近い領域が含まれているかを確認することが重要です。大きく離れた領域（例: 一般写真で学習されたモデルを医療画像に適用）では効果が限定的になります。

選択肢5：スコープ縮小・タスク変更・手法変更

データ量を増やす方向ではなく、「解くタスクそのものを変える」選択肢です。

目標精度の引き下げ: 90%精度を目指していたところを85%に下げる
タスクの分割: 一気に全自動化を目指すのではなく、AIが判定するのは一部だけにして、残りは人手レビューを併用する
手法変更: 機械学習ではなく、ルールベース（if-then ルール）や統計手法に切り替える、または併用する
対象範囲の縮小: 全業務を対象にしていたのを、特定部門・特定商品カテゴリだけに絞る

向くケース: 目標精度・スコープが当初設計の段階で過剰だった場合。データ追加コストがビジネスインパクトに見合わない場合。

コスト感: 設計見直しの工数のみで、追加データコストは抑えられます。

期間: 数週間〜1ヶ月。

注意点: スコープ縮小はネガティブな選択肢ではありません。「PoCでは限定スコープで成立させて運用を始め、運用しながらデータを蓄積して段階的に拡大する」という段階戦略は、AI導入の王道パターンの一つです。