データクレンジングの意味や必要性、メリットなどをまとめて解説

IT、IOTなどのテクノロジーの進歩や、DXの推進によって、自社が保有するデータを活用する企業が増えてきました。しかし、多くの企業は自社が保有するデータの統合や管理などをしていなかったため、データを活用しようと考えたときに、分析に適したデータを準備できずに、頓挫してしまう場合も多いようです。そこでこの記事では、データを活用する際に欠かせない「データクレンジング」の意味や必要性などについて解説します。

データクレンジングとは

「データクレンジング」とは、分析の障害となる異常値、重複データ等を取り除き、分析しやすい状態にすること をいいます。

データのなかにデータクレンジングの対象となるような不備のデータが含まれていると、分析結果に悪影響を与えてしまいます。 つまり、データには品質があり、データの品質が悪ければ、利用や分析における障害となると考えられているのです。そのため、精度の高い分析結果を得るためには、データクレンジングが欠かせません。

データの品質基準

国際データマネジメント協会の英国支部の資料によれば、データの品質に関する品質基準には、下記の６つの要素が挙げられます。

Completeness（網羅性）
Uniqueness（唯一性）
Timeliness（適時性）
Validity（正当性）
Accuracy（正確性）
Consistency（一貫性）

上記の基準を参考にして自社で保有するデータの品質を客観的に判断してみるとよいでしょう。

「名寄せ」との違い

データクレンジングと混合されやすいのが「名寄せ」です。 名寄せとは、データベースを統合したときに重複するデータをまとめる作業です。 データクレンジングがひとつのデータベース内で、表記ゆれやフォーマットを統一する作業なのに対し、名寄せは複数のデータベースを統一した際に、重複したデータをまとめる作業になります。

例えば、自社の顧客にDMを発送する際に、データを抽出したとします。このときに名寄せせずにデータがダブっていた場合、同じ顧客に対して同じ内容のDMを複数送ってしまう恐れがあります。また解約した顧客に対して、顧客向けのメールを送り続けてしまうようなミスが起きてしまうケースも考えられます。

このようにデータクレンジングと同様に名寄せも、自社のデータを活用するうえで欠かせない重要な作業になります。

データクレンジングが必要な理由

データクレンジングは、データの分析精度を高めるためには欠かせない作業です。ここではデータクレンジングが必要な理由について解説します。

保有するデータの型やフォーマットが揃っていない

企業の顧客データを入力する際には、人の手によって入力されている場合が一般的です。また、データを入力する人も企業の担当者だけでなく、例えば新規顧客登録の際に顧客によって入力されたものも存在します。

さらに企業にはさまざまな人によって入力されたデータだけでなく、システムによって自動で収集されたデータもあります。このような状況で社内にあるデータを集めると、データの型やフォーマットが揃っていない可能性が高いです。

データの形式や入力方法がバラバラな状態では、分析ができないだけでなく、分析できたとしても精度が低くなってしまう恐れがあります。 さらには検索して必要なデータを探すことも困難になるでしょう。

コストの増大

データクレンジングや名寄せなどをしていない品質の悪いデータによって、企業は下記のコストがかかることが考えられています。

正しいデータが確認できないことによる機会損失
データの廃棄や追加的な作業によるコスト
不正確なデータ利用に基づくコスト

2016年にIBM社より公刊された書籍によれば「品質の悪いデータがアメリカ経済に与えるコスト推定値は年間 3.1兆ドル」と紹介されています。

またSoftware AGが行ったアメリカにおける品質が悪いデータが生み出すコストに関する調査によれば、品質の悪いデータがもたらす経営上のコストは組織の収益の10～25％にのぼることや、企業のIT予算の50％は使えない情報とその補修に費やされることがわかりました。

参考：総務省｜ ICTスキル総合習得教材「 3-1：ビッグデータの活用と分析に至るプロセス」

これらの資料からも、企業がデータを活用する際にデータクレンジングが欠かせないことがわかります。

データクレンジングを実施するメリット

データクレンジングを実施するメリットは、大きく3つあります。ここではそれぞれのメリットについて解説します。

データの分析精度を高める

AIが進化したことで、昔に比べるとAIを使って分析することが容易になりました。また、ITやテクノロジーの進歩によって、分析に必要な多くのデータを収集することも可能で、データが多ければ多いほど、分析精度は高まるともいわれています。

しかしながら『Garbage in, Garbage out = ゴミデータを入れてもゴミしかでてこない』というような有名な格言があるように、 どんなに大量にデータがあったとしても品質の悪い不完全なデータだった場合、不完全な分析結果しか生まれません。

分析精度を高めるためにはデータ量も重要ですが、同時にデータの品質の高さも重要です。

メインの業務に注力できる

データ分析をする際に、単独のデータだけでなく2種類以上のデータを組み合わせて分析するケースが増えています。株式会社情報通信総合研究所が実施した「デジタルデータの経済的価値の計測と活用の現状に関する調査研究の請負報告書」によれば、特にマーケティングの分野では、5種類以上のデータを組み合わせて分析する場合があると記されています。

また中小企業では、大手企業に比べて各事業部門のデータ分析が専門でない人が分析を行っているケースが多いこともわかりました。

そのためマーケティング担当者が顧客分析をしたいと考えた場合、自分でデータの前処理作業から行う必要があります。その結果、本来注力すべき業務ではないデータの修正や処理に時間をとられてしまうことが想像されます。

こうした課題も、社内データベースのデータ品質が高ければ、現場担当者のリソースを奪うことなく、必要なタイミングで必要なデータの分析が可能になります。

またデータの品質を高め、扱いやすくしておくことで、例えば直近3ヶ月以内に購入した顧客というようにセグメントをかけて顧客情報を検索することが容易になります。

データの品質を高めておくことでデータ処理や修正などの作業に時間をかける必要がなくなり、現場の担当者は本来のメインとなる業務に注力できるようになるのです。

自社の社会的信用を守る

データクレンジングをすることで自社の社会的信用を守ることにつながります。 例えば、顧客情報を間違って登録されていた場合、下記のようなトラブルが考えられます。

メールアドレスが間違っていたことでメールが届かない
顧客名が誤表記のままメールを送信してしまう
住所の番地以降がないことで、郵送物が顧客に届かない

これらのトラブルは顧客に対して、情報をしっかりと管理していないと思われてしまうきっかけになります。同じようなトラブルが続いてしまうことで、今まで築いてきた信用を壊しかねません。このような理由からもデータクレンジングを実施することは、自社の社会的信用を守ることにもつながるのです。

データ前処理（データプレパレーション）の流れ

データ前処理（データプレパレーション）とは、データを活用する際に、分析ができるように加工や整形を行う作業です。名寄せとデータクレンジングはデータの前処理として、一連の流れで実施します。

データを統合する

多くの企業では各部門ごとで異なるツールを使っているケースが多いです。 そのためまずは、社内に散在しているデータをひとつに集約します。 このとき、Excel、CSV、Word、PDFというようにさまざまな形式で保存されている場合は同じ形式にしましょう。

重複データを削除する

データを統合したら、名寄せ作業を実施します。 同一氏名や同一住所は、それぞれひとつにまとめていきます。例えば、同じ顧客名で漢字表記のものと半角片仮名のものがあった場合、住所、生年月日、性別などのほかの情報から同一人物かどうか判断します。この時点で、顧客名が複数登録されている場合は削除し、統一していきます。

データの修復や修正をする

表記ゆれや入力ミスなどを修正し、情報が欠落している箇所があれば追記します。 このときにデータをどのように整形するのか一定の基準を決めておく必要があります。

例えば、顧客企業名は株式会社ではなく、（株）にするというように一定の基準を決めて、データを修正していきます。

ほかにも、顧客住所が旧住所で登録されている場合は、新住所に変更したり、番地以降が抜けている場合は追記したりします。また数値情報は全角だと数値として認識されないため半角に修正します。

このようにしてデータを整形した後は、目的別にリスト化するなど必要なデータをいつでも検索できるように整理しておきます。

定期的に実施する

企業は日々あらゆる手段でデータを収集しているため、常に必要なデータを検索できるように定期的にこれらの作業を実施します。これらの一連の作業の手間を減らすために、社内で顧客データの表記に関するルールを決めておくとよいでしょう。

データクレンジングは専用ツールを活用すべき理由

データクレンジングは、専用ツールを活用しなくてもできますが、専用ツールを利用することをおすすめします。ここでは、その理由について解説します。

思っている以上に負担が大きい

データクレンジングは思っている以上に負担が大きい作業です。 2017年2月に実施された世界のデータサイエンティスト（データ分析者）197名に対する調査では、データクレンジングを含むデータの前処理が最も時間を割いている業務と回答した者が過半数の53％だったそうです。

また、データサイエンティストの業務のなかで「最も楽しめない業務」として、データクレンジングが挙げられています。

このようにデータクレンジングはプロにとっても負担が大きな業務です。 それゆえ専門外の担当者に対応させてしまうと、負担が大きすぎて本来の業務に注力できなくなってしまう恐れがあります。

手作業だと人的エラーが発生する恐れがある

データクレンジングの作業はExcelなどを活用し、手作業で行うことも可能です。しかしながら膨大なデータを手作業で行う場合、入力ミスなどが生じるリスクも高くなるでしょう。そのためせっかくデータクレンジング作業を行っているにも関わらず、入力ミスによって、データクレンジングが必要な不備のあるデータを増やしてしまう恐れもあります。

定期的に実施する必要がある

企業のデジタル化やDXの推進により、今後ますます企業が収集するデータは増加傾向にあります。総務省の「令和2年情報通信白書」によれば、5年前に実施した調査と比較すると、POSやEコマースによる販売記録、MtoMデータを含む自動取得データや、電話などの音声データの活用が進んでいることがわかりました。

この調査結果からも企業が取り扱うデータ量は増えるだけでなく、データの種類も増え続けていく ことが想定されます。

これらの膨大なデータはそのままでは活用するのが難しいため、定期的にデータクレンジングなどの作業が必要になります。

このように日々増えていく膨大なデータを手作業でクレンジングしていくことは現実的に不可能に近いでしょう。だからこそ専用ツールを活用し、できるだけこれらの作業を自動化するのが望ましいといえます。

データの前処理にはAzure Databricksがおすすめ

マイクロソフトが提供する Azure Databricksなら、生データに対して、データ分析に利用できるように最低限のクレンジングを行うだけでなく、分析シナリオごとにデータ加工まで行います。

Azure Databricksを利用することで、常にデータをクリーンな状態に保てるだけでなく、Azure Purviewと連携させることで必要なデータをすぐ確認できます。

また、 Azure Data Factory とAzure Synapse Analyticsを合わせて利用することで、自社が保有するさまざまなデータの収集から統合、そして大規模なデータ処理までワンストップで利用可能です。さらに機械学習に特化した Azure Machine Learning やBIツールのPower BIと連携することで、精度の高い分析もできます。

まとめ

デジタル化やDXの推進により、これから各企業においてはさらにさまざまなデータの活用が進んでいくことが想定されます。自社が保有するデータを活用するうえで、データクレンジング作業は欠かせません。しかし、データクレンジング作業はプロにとっても負担の大きな作業です。それゆえデータ活用を進めていく際には、専用ツールを活用することをおすすめします。

Azureのデータ&分析プラットフォームなら、これらの作業を自動化するだけでなく「データの収集・蓄積」→「データの抽出・加工」→「データの分析・可視化」という一連のプロセスをワンストップで利用可能です。

ぜひこの機会にAzureのデータ&分析プラットフォームの導入を検討してみてはいかがでしょうか？