AI導入前のデータ整備｜自社でできる進め方と優先順位の決め方

AI導入のプロジェクトを進めようとした担当者が、最初にぶつかる壁があります。それが「データ整備」です。AIベンダーに相談すると高い確率で「まず御社のデータを整備してください」と言われ、何をどこから始めればよいか分からないまま時間だけが過ぎていく、という状況に陥りがちです。

この壁の厄介なところは、「整備が必要」と分かっていても、社内のデータがExcelファイル・基幹システム・クラウドSaaS・営業担当者のPCのローカルフォルダなど、あちこちに分散していて全体像すら把握できないことにあります。しかも、専任のデータエンジニアがいない環境では「自分たちに本当にできるのか」という不安も重なります。

しかし、AI導入前のデータ整備は「全社のデータを完璧に整える」必要はありません。適切に範囲を絞り、正しい順序で進めれば、専任エンジニアがいなくても着実に前進できます。

本記事では、AIで解決したい業務課題から逆算してデータ整備の対象を絞る考え方と、棚卸し・品質改善・構造化・運用ルール策定までの具体的なステップを解説します。来週の社内会議で「まずはここから始めます」と提示できる状態を目指してください。

Contents — 目次

AI導入前にデータ整備が必要な理由
整備すべきデータを絞り込む──「全部やろう」がいちばんの失敗
自社データの現状を把握する（データ棚卸しの手順）
データ品質を確認・改善する（クレンジングの進め方）
データを活用できる形に整える（構造化・アクセス整備）
データ整備を継続させるための社内ルールづくり
AI導入前のデータ整備を成功させるためのポイントまとめ

—TechBand / 開発チームサービス

貴社に、確かな
開発部門を。

受託ではなく、貴社の内部組織として活動する開発チーム。毎週、着実に動く成果物と、1枚のレポートをお届けします。

Fee月額10万円から

Period最低契約期間1ヶ月〜

Trial初回相談は無料です

TechBand

無料相談をはじめるサービス詳細を見る

Starting from ¥100,000 / mo

AI導入前にデータ整備が必要な理由

「AIを入れれば何とかなる」という期待のまま導入を進めると、高確率で失敗します。その原因の多くがデータ品質の問題です。

データが整備されていないとAIはどう壊れるか

AIシステムには「GIGO（Garbage In, Garbage Out）」という原則があります。投入するデータの質が悪ければ、どれだけ高度なAIモデルを使っても出力される結果は信頼できないものになる、という意味です。

例えば、AIを使って売上予測モデルを構築しようとした場合、学習データとなる過去の売上データに以下のような問題があれば、予測精度は著しく下がります。

同じ商品が「製品A」「製品-A」「A製品」と表記がバラバラで集計できない
営業担当者が退職する際に案件データを削除してしまい、過去の記録が欠損している
2つの部門が別々に管理していた顧客データで、同一顧客が重複登録されている

これは架空の話ではなく、多くの企業が実際に直面する問題です。AIシステムの開発・運用支援に携わるエンジニアが「実際に企業のExcelを確認すると日付の形式がバラバラ、同じ顧客が違う名前で複数登録、重要な列が半分空欄」といったケースを日常的に目にすると報告しているほどです。

日本企業のAIプロジェクトが失敗する現実

データ品質問題はグローバルでも日本でも深刻です。Qlikが実施した調査（Qlik、2025年）によると、日本企業の約3割がAIプロジェクトの失敗原因として「AIが使用するデータの信頼性不足」を挙げており、グローバルの21%を大きく上回っています。

また、NRIの調査では、AI導入企業の40%が「自社のデータを活用したいが、データの質や量が伴わない」という課題を挙げています（野村総合研究所、2025年）。

「とにかくAIを導入してから考える」という姿勢では、この壁は越えられません。AIプロジェクトを成功させるための前提条件として、データ整備は避けられない工程です。

整備すべきデータを絞り込む──「全部やろう」がいちばんの失敗

データ整備で最も多い失敗は、「全社のデータを一度に整備しよう」と動いて途中で頓挫することです。範囲が広すぎて何ヶ月経っても終わらず、担当者も経営層も疲弊して「データ整備プロジェクト」そのものが立ち消えになるパターンです。

正解は、AIで解決したい業務課題から逆算して、必要なデータだけを先に整備することです。

業務課題から逆算してデータの優先順位を決める

まず「AIを使って何を解決したいか」を具体的に決めます。「業務効率化」「売上向上」のような曖昧な目標ではなく、以下のように業務レベルまで落とし込みます。

「問い合わせ対応にかかる時間を半分にする」→ 必要データ: 過去の問い合わせ内容とその回答
「在庫切れによる機会損失をなくす」→ 必要データ: 過去の在庫推移と売上実績
「営業担当者の提案精度を上げる」→ 必要データ: 顧客属性と成約・失注の履歴

このように課題を定義すると、整備すべきデータの範囲が自然に絞り込まれます。必要ないデータの整備に時間を使わないことが、プロジェクトを前進させる最大のポイントです。

優先データの見極め方：3つの判断軸

業務課題に関連するデータが複数ある場合、以下の3つの軸で優先順位を判断します。

判断軸	優先度が高いデータ	優先度が低いデータ
利用頻度	AIが頻繁に参照するデータ	参照頻度が低いデータ
精度への影響	品質が低いとAIの出力が大きくブレるデータ	多少の欠損・誤りがあっても影響が小さいデータ
整備コスト	比較的整備しやすいデータ（形式が揃っている等）	整備に多大な工数が必要なデータ

SCROLL→

「利用頻度が高く」「精度への影響が大きく」「整備しやすい」データから着手するのが基本です。

自社データの現状を把握する（データ棚卸しの手順）

優先するデータ領域が決まったら、次はそのデータの現状を把握します。これが「データ棚卸し（データインベントリ）」です。

棚卸しの目的は、自社に存在するデータの種類・保管場所・管理担当者・形式・更新頻度を一覧化することです。Excelや社内チャットツールを使って現場担当者に聞き取りをするだけでも実施できます。

データ棚卸しシートの作り方（5項目）

以下の5項目を基本として、対象データのシートを作成します。

項目	記入例	確認のポイント
データ名	顧客マスタ	社内で通称がある場合はそれも記載
保管場所	基幹システム（販売管理）/ 共有フォルダ `/sales/`	複数箇所ある場合はすべて記載
管理担当者	営業部・山田さん	担当者が不在の場合は「不明」と記載
データ形式	CSV出力 / Excel（手入力）	CSVで取得可能かも確認
更新頻度	月次 / リアルタイム / 不定期	「更新されていない」場合もそのまま記載

SCROLL→

棚卸しを実施すると、多くの企業で「誰も把握していないデータが存在する」「同じ情報が複数のシステムで二重管理されている」という事実が発覚します。これを把握すること自体がデータ整備の重要な成果です。

現場への聞き取りで把握すべき情報

棚卸しシートを埋めるために、現場担当者へのヒアリングが欠かせません。以下の質問を軸に進めます。

「日常業務でどんなデータを使っていますか？」
「そのデータはどこに保存されていますか？個人のPCにはないですか？」
「データに入力ミスや古い情報が混ざっていることはありますか？」
「複数の人が同じようなデータを別々に管理していることはありますか？」

現場担当者は「これがデータ整備に関係するとは思っていなかった」という情報を多く持っています。IT部門だけで進めず、必ず現場を巻き込むことが棚卸し成功のカギです。

データ品質を確認・改善する（クレンジングの進め方）

棚卸しが完了したら、対象データの品質を評価し、AIが活用できる状態に整えます。ここでの重要な原則は「完璧を目指さない」ことです。「AIで使う部分だけを、使える品質にする」という考え方で進めます。

AIに必要なデータ品質の6つの基準

データ品質は以下の6つの基準で評価します。対象データがこれらをどの程度満たしているかを確認することで、優先して改善すべき箇所が明確になります。

品質基準	内容	典型的な問題例
正確性	実際の事実と一致しているか	転居した顧客の旧住所が残っている
完全性	必須項目に欠損がないか	電話番号が未入力の顧客レコードが多数ある
一貫性	複数のデータソース間でデータが矛盾していないか	基幹システムとSFAで同じ顧客の会社名が異なる
適時性	データが最新の状態に保たれているか	退職した従業員の担当案件が更新されていない
一意性	同一データが重複登録されていないか	同一顧客が「株式会社ABC」「ABC株式会社」で重複している
有効性	定められた形式・ルールに適合しているか	日付項目に「R6.4.1」「2024-04-01」「2024/4/1」が混在

SCROLL→

（参考: IBM データ品質について）

専任エンジニアなしでできるクレンジング作業

専任のデータエンジニアがいなくても、以下の作業はExcelやスプレッドシートの基本機能で対応できます。

表記統一 同じ意味を持つデータが複数の表記で存在する場合、統一します。「検索と置換」機能や「VLOOKUP」を活用することで、大量データの一括修正も対応できます。

例: 「東京都」「東京」「Tokyo」→「東京都」に統一
例: 日付形式を「YYYY/MM/DD」に統一

重複排除 Excelの「重複の削除」機能や、Googleスプレッドシートの UNIQUE 関数を使って重複データを洗い出します。削除する前に必ず「重複の可能性あり」として別シートにバックアップを保存してください。

欠損値の対応 欠損データへの対応方針を決めます。

補完可能なもの（現場確認で埋められる等）: 担当者に確認して補完
補完困難なもの: 「不明」「空白」として明示的に記録し、AIの学習から除外する等の方針を決める
欠損が多すぎる項目: AIの精度に重大な影響がある場合のみ整備を優先

整備の優先度判断：今すぐやること・後回しでいいこと

すべての品質問題を一度に解決しようとすると、作業が止まります。以下の基準で優先順位をつけます。

今すぐ対応すべき問題:

AIの出力精度に直接影響する項目の欠損・誤り
異なるシステム間でデータが一致しない矛盾（AIが混乱する原因になる）
重複レコードが著しく多い状態（集計が正確にできない）

後回しでよい問題:

利用頻度が低いデータの細かい表記ゆれ
AI活用の対象外となる業務領域のデータ
整備コストが成果に見合わない項目

データを活用できる形に整える（構造化・アクセス整備）

クレンジングが完了したら、データをAIが参照しやすい形に整えます。「高価なデータ基盤ツールを導入しなければならないのでは」と心配する必要はありません。まずは保存場所とファイル管理のルール統一から始められます。

まずはファイル管理から：命名規則と保存場所の統一

バラバラに存在するデータを整備した最初のステップとして、保存場所とファイル命名規則を統一します。

保存場所の統一 個人のPCのローカルフォルダに保存されているデータを、クラウドストレージ（Google Drive、Microsoft OneDrive、Box等）やファイルサーバーに集約します。「誰もが必要なデータにアクセスできる」状態を作ることが目的です。

命名規則の設定 ファイル名・フォルダ名のルールを決め、新規作成するデータはそのルールに従います。例えば以下のような規則を設定します。

text

[部門]_[データ種別]_[YYYYMM].xlsx
例: sales_customer-master_202504.xlsx
    hr_employee-list_202504.xlsx

既存のファイルの名称変更に時間をかけすぎる必要はありません。新規作成分からルールを適用し、必要に応じて徐々に移行する現実的な進め方が継続につながります。

非構造化データ（PDF・議事録・メール）の扱い方

企業内には、PDFの提案書・会議の議事録・メール履歴など、表形式ではない「非構造化データ」も多く存在します。特にRAG（Retrieval-Augmented Generation）と呼ばれる社内ドキュメントをAIに参照させる仕組みを構築する場合、非構造化データの整備も必要になります。

非構造化データの整備では、以下の点に注意します。

ファイル名と保管場所の統一: 構造化データと同じルールを適用する
最新バージョンの管理: 複数バージョンが混在しないよう、「最新版」のフォルダを明確に定義する
機密情報の分類: AIに学習させてよい情報と、させてはいけない情報（個人情報・契約情報等）を事前に分類する

非構造化データは「とりあえずフォルダに集める」だけでも、AIが参照できるデータ量を大幅に増やせます。完璧に整理してから着手するのではなく、集約と分類を並行して進める方が現実的です。

データ整備を継続させるための社内ルールづくり

一度整備したデータが、時間とともに再び劣化してしまう。これは多くの企業が経験する問題です。データ整備は「一度やって終わり」ではなく、継続的に品質を維持する仕組みが必要です。

ただし、「データガバナンス体制の構築」という大げさな方向に向かう必要はありません。小さく始められる2つのルールから着手します。

データ入力ルールの設定（フォーマット・定義の統一）

データ品質の劣化の多くは「入力時のルールがない（または守られていない）」ことから発生します。整備したデータがすぐ劣化しないよう、入力時のルールを設定します。

日付形式の統一 日付を入力する際のフォーマットを「YYYY/MM/DD」に統一し、「R6.4.1」「令和6年4月1日」「4/1」といった自由記述を禁止します。Excelのセル書式設定でフォーマットを強制することも有効です。

選択肢の固定化 「部門名」「ステータス」「担当者名」など、決まった値しか入らない項目はドロップダウンリストや選択肢の固定化で自由入力を排除します。表記ゆれを防ぐ最もシンプルな方法です。

用語の定義書の作成 「顧客」「リード」「案件」といった基本的な用語の定義を文書化します。「顧客とは契約済みの企業を指す」「リードとは商談前の接触段階の企業を指す」といった定義が部門間で異なる場合、集計時に大きなズレが生じます。

データオーナーを決める（誰がデータを管理するか）

各データに「オーナー（管理責任者）」を設定します。データオーナーとは、そのデータの品質を維持する責任を持つ担当者です。役割は以下の2点に絞ります。

定期チェックの実施: 月に1回、自分が担当するデータに明らかな誤りや欠損がないかを確認する
問い合わせ窓口になる: 他の担当者がデータの疑問を持ったときの最初の連絡先になる

「データオーナー制度を構築する」と聞くと大規模な体制変更をイメージしがちですが、最初は「このデータの管理は〇〇さんが担当」という合意を作るだけで十分です。データの問題が発見されたときに誰に連絡すればよいかが明確になるだけで、品質維持の効率は大きく変わります。

AI導入前のデータ整備を成功させるためのポイントまとめ

本記事で解説した内容を3つの原則にまとめます。

原則1：AIで解決したい業務課題を先に決め、そのデータだけを最初に整備する 「全社のデータを完璧に整備してからAIを導入する」という考え方は現実的ではありません。まず「AIで何を解決するか」を決め、そこから逆算して整備対象を絞ることが、プロジェクトを前進させる唯一の方法です。

原則2：「使える品質」を目指す。完璧な品質は目指さない データ品質の改善にはきりがありません。AIで活用する範囲のデータが「使える品質」になれば、それで十分です。過剰な完璧主義がプロジェクトの停滞を招きます。

原則3：着手は小さく、継続できる仕組みを最初から作る 大規模なデータ整備プロジェクトを1回実施するより、継続できる小さなルールを設定して日々の入力品質を維持する方が、長期的に高いデータ品質を保てます。

今週できる最初のアクションは「データ棚卸しシートを作り、対象データの洗い出しを始めること」です。Excelで5項目を埋める作業から、AI導入に向けたデータ整備は確実に前進します。

—Free Download / お役立ち資料

業務改善・DXのヒントが
詰まった無料資料。

システム開発・DX推進に役立つお役立ち資料を多数ご用意しています。すべて無料でダウンロードいただけます。

FormatPDFでご提供

Feeすべて無料

Topics業務改善 / DX / システム開発

Free Download

資料一覧を見る

All resources are free

—AI Development / AI開発

ビジネスに、
実用的なAIを。

生成AI・LLM活用から、データ分析基盤、機械学習モデル開発まで。事業課題に直結するAIソリューションを設計・実装します。

ScopeLLM・生成AI・データ活用

PhasePoC・本番導入まで支援

Trial初回相談は無料です

AI Development

無料相談をはじめるサービス詳細を見る

Generative AI · LLM · Data

Contents — 目次

AI導入前にデータ整備が必要な理由
整備すべきデータを絞り込む──「全部やろう」がいちばんの失敗
自社データの現状を把握する（データ棚卸しの手順）
データ品質を確認・改善する（クレンジングの進め方）
データを活用できる形に整える（構造化・アクセス整備）
データ整備を継続させるための社内ルールづくり
AI導入前のデータ整備を成功させるためのポイントまとめ

—TechBand / 開発チームサービス