データウェアハウス設計とは？DWHの特徴や分析の流れについても解説

現在ビジネスは迅速かつ、適切な意思決定が求められ、実現するには目的に応じたデータが必要になります。
そこで本記事では情報活用を目的に統合化・一元化されたデータを必要な人に適切なタイミングで提供するデータウェアハウスの設計について解説します。これからデータウェアハウスをビジネスに導入を検討されている方は参考にしてください。

データウェアハウス(DWH)とは

データウェアハウス（Data Ware House）とは、意思決定をサポートするデータの「倉庫」のことを指します。ビジネスにおける過去、現在そして未来のさまざまなシステムから取得できる履歴データを統一したフォーマットに従って蓄積していき、意思決定を行うための事実を収めた情報源といえるでしょう。

今までデータ管理は容易ではなく、「データが各所に分散している」「データの分析に時間がかかる」「古いデータが残っていない」などの課題を抱えていました。このような課題を解決し、蓄積された豊富なデータから迅速に高度な経営分析をすることを目的としています。

データウェアハウスの特徴

データウェアハウスはさまざまな特徴を持っており、導入することでビジネスの価値を上げることができます。

サブジェクト指向

データウェアハウスに保存されているデータは、サブジェクト（テーマや目的、用途別）に分類されています。データウェアハウスに蓄積されたデータはさまざまな既存システムから取得されたものです。これらをシステム毎ではなく、サブジェクトによって分類されまとまった1つのデータ項目として扱えるようにします。

例えば、販売管理システムと在庫管理システムがそれぞれに保有している「顧客」や「商品」といったデータ項目を、データウェアハウスで保管する際に「顧客」や「商品」というサブジェクトに置き換えることでシステムに依存しない「顧客」や「商品」の分析を可能とします。

データの統合

データウェアハウスに保存されているデータは、1つの統合したフォーマットで保管されます。なぜなら、複数のシステムから取得したデータはそのままだと問題が発生するからです。フォーマットはそれぞれのシステム毎に最適化されているため、同じデータでも保存形式が不整合な可能性があります。このことから、データウェアハウスで一元管理するためには差異を解消する必要があるといえるでしょう。

例えば、複数のシステムから「顧客」データを取得した場合に、システムによって名称やコード体系が違うと同一人物なのに、複数人と認識されてしまう可能性があります。

こうした問題を解決するために、表現の統一や重複の削除などが行われます。

リアルタイムに更新

データウェアハウスに保存されているデータは、時系列に並んで保管されます。過去のデータも保持しており、任意の時点での状態や流れの参照・分析が容易になります。対して既存のシステムのデータは最新のデータのみになります。

例えば、ある顧客の会員ポイントを既存システムで検索すると現在の保有ポイントが出力されますが、データウェアハウスだと会員になってから検索時点までのポイント取得・利用の推移を全部保存しているため、顧客の動向を軸とした分析も可能となり、経営判断に活かしやすくなります。

不変性

データウェアハウスに保存されているデータは、基本的には削除されることなく保管され続けます。なぜなら、時系列のデータとして蓄積して、現在と過去のデータから意思決定を行うためです。ただし、データ容量が限界を迎えた場合は不要データを削除することもあるので、注意しましょう。

また、データウェアハウスに保管されたデータが更新されることはありません。基本的に保管されているデータへのアクセスは読み出しのみですが、明らかな間違いがあった場合は修正されます。

データウェアハウスに必要なスタースキーマとは

データウェアハウスを導入する目的はデータ分析をすることです。データ分析のためには数字に注目する必要があり、これをモデリング用語でファクトと呼びます。さらに、分析対象となる数値データを格納したものをファクトテーブルと呼び、ファクトを分析する切り口となるデータを格納したものをディメンションテーブルと呼びます。

データウェアハウスのモデリングはファクトテーブルを中心に置き、ディメンションテーブルをその周りに置きます。その完成したモデルの見た目が星型の表になることからスタースキーマと呼びます。

データウェアハウスの設計

データウェアハウスはデータの保管場所です。その設計には「多次元モデル」と「正規モデル」という、一般的に知られている2つの方法論があります。どちらも有効な方法ですが、それぞれにメリットとデメリットがあるため、それぞれのモデルについて見ていきましょう。

多次元モデル

トランザクションデータを「ファクト」および「ディメンション」の集まりに分類して、データウェアハウスを一から設計して実装します。トランザクションデータとはビジネスに伴って発生した出来事の詳細を記録したデータです。

「ファクトテーブル」と「ディメンションテーブル」の関係性をユーザーが把握しやすいように関連付けることができます。

メリットは技術系でないユーザーでも効率的な処理を実行できることが挙げられるでしょう。それはデータが論理的にグループ化されており、同じ種類のデータをまとめて保存することでパフォーマンスが高くなるためです。

一方、デメリットは新しいデータの種類を追加する場合、データウェアハウス全体の更新が必要になります。

正規モデル

E. F. Codd によって定義された正規形に基づいています。データを第3正規形(3NF)にして保存し、トピック（顧客、注文、製品など）毎にデータをグループ化するというものです。

メリットは既存のデータに影響を与えずにトピックを新規追加できるので、データウェアハウスに新しいデータ項目を追加する更新作業を容易に行うことができます。
しかし、技術系でないユーザーもデータがどのように関連付けられているかを理解する必要があることがデメリットといえるでしょう。さらに各クエリーに関係するテーブルの数によっては、処理速度に影響する可能性があります。