データクレンジングとは

データクレンジング(data cleansing)とは、データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めることを指し、データクリーニング(data cleaning)と呼ばれる場合もあります。近年、DX(デジタルトランスフォーメーション)の取組の中で、データ分析の重要性が高まっています。データ分析の精度を上げるために、データクレンジングは欠かせません。分析の元となるデータに不備や不足があるままでは、正しい分析や意思決定ができないからです。経営判断やマーケティング戦略立案のために、データの活用が増え、データクレンジングが益々重要となっています。

データクレンジングの必要性

たとえばCDPやDMPを構築する際には、CRMから得た顧客データ、EXサイトから得た顧客の購買データや閲覧データ、複数の部署に散在する顧客データなど、様々な情報を集め、統合する必要があります。その際、それぞれのシステム、部署での管理項目やデータの扱いが異なっており、データの統合ができないといった問題が発生します。
・データの全角/半角
・空白や区切り文字の有無
・電話番号、住所の入力
・会社名や法人格のゆれ
・数値の意味(例:「売上」という言葉でも部署によって意味合いが異なる、など)
このようにデータを集めただけでは微小な違いがあり、データの活用はできません。必要なデータを集め、クレンジングし、蓄積していくことが必要となります。

データクレンジングの手順

データクレンジングの手順は以下の通りです。
1.データ項目の特定とデータの収集
2.データ品質調査とクレンジング対象の抽出
3.クレンジング実施
4.データモニタリングと入力側へのフィードバック
データクレンジングの手順は一見シンプルなように見えますが、決して、簡単なものではありません。ビックデータ時代と言われている昨今では、そのデータ量は膨大となっており、手作業でデータをクレンジングすることは現実的ではありません。また、手作業でクレンジングをしようとすると、クレンジングルールに沿った確実なクレンジングができなくなる恐れあるためツールを使ったクレンジングをお勧めします。

ETL/EAIを活用

データクレンジングの自動化にはETL/EAIツールを使うことが可能です。ETL/EAIツールはデータを集め、変換し、出力する機能が備わっています。この機能を使い、定期的にシステムにアクセスし、データを取得し、必要な変換(クレンジングや名寄せ)を行い、データを統合することが可能となります。

関連情報

●データ活用と一元化でDXを加速する データ連携(EAI/ETL/iPaas)ツール

DataSpider Cloud

●CDPの構築・顧客データ活用をご検討の方はこちら

顧客データ基盤(CDP)の構築

  • ※「HULFT」シリーズ、「DataSpider」シリーズは株式会社セゾン情報システムズの登録商標です。
  • ※その他の会社名、製品名などの固有名詞は、一般に該当する会社もしくは組織の商標または登録商標です。
  • ※当ソリューション・製品に関するお問い合わせリンクは、NTTテクノクロスのお問い合わせ専用ページ(社外サイト:MARKETINGPLATFORM)に遷移します。(MARKETINGFLATFORMは、株式会社シャノンが提供しているクラウドアプリケーションです)