データ分析、データベース

データから新たな価値を創出する「データカタログ」とは?

近年、金融サービスと情報技術を結びつけたFinTechをはじめ、製造・不動産・輸送・教育・エンターテイメントなど、あらゆる業界においてDX化が進み、AIを活用したスマートテクノロジーが急速に普及しました。

このようなスマート化に欠かせないのが、AIによる自動学習で大量に蓄積された「データ」です。近年では、ビッグデータ という言葉が一般的になりました。その言葉が表す通り、インフラの高速化やストレージの大容量化に伴い、大量のデータがクラウド環境に蓄積され、素早くやりとりを行うことで、今日多くのサービスを支えています。

このようにインターネット空間と現実空間を融合させ、経済発展と社会的課題の解決を両立する社会を目指す取り組みがSociety5.0(ソサエティ5.0)です。Society5.0が目指すデータ活用時代において、データの効率的な活用を目的とした「データカタログ」の構築が注目を集めています。

本記事では、データカタログについての概要や時代的な背景・活用事例・開発環境について解説します。

データから新たな価値を創出する「データカタログ」とは?

Microsoft Azure製品カタログ

データカタログとは?

データカタログとは、その文字の通り、「データ」の「カタログ」です。一般的なカタログ冊子のように、データに対し、所在を検索したり意味を定義したり、どのように活用するかを整理した状態のものを、データカタログと呼びます。

データを整理するためのデータ

データを整理するためにもデータが用いられます。この整理するためのデータを「メタデータ」と呼びます。メタデータは大きく「テクニカルメタデータ」「ビジネスメタデータ」「活用メタデータ」の3種類に分類されます。

テクニカルメタデータ

ITに関する物理的なメタデータです。テーブル物理名・カラム物理名・データ型・データ長など、データの技術的な詳細情報を指します。

ビジネスメタデータ

業務に関するメタデータです。例えば、小売業者の場合、商品単価は1回の受注数量や顧客ランクなどをもとに算出されます。このような業務における決まりごとがビジネスメタデータです。

活用メタデータ

当該データがどのように利用されているのか、というノウハウや、人気があるデータはどれか、最近どのような問合せがあるか、参照されるテーブルは何か、といったアクティビティに関する実用的なメタデータです。

これらのメタデータを管理して、データをカタログのように活用することを目的としたものがデータカタログです。

データカタログが注目された背景

2010年頃から「ビックデータ」という言葉が注目されはじめました。同時に、日々増え続ける大量のデータをどう扱うかという管理方法の課題も生じました。そのときに登場したのが「データレイク」です。

データレイクとは、データのLAKE(湖)という言葉通り、ビッグデータをそのまま格納できるストレージリポジトリです。音声や動画・SNSのログなどを含むあらゆる形式のデータを、そのままの形式で貯めておけるメリットがあります。またデータレイクは安価に利用できることから、容量とコストを気にせずに、膨大な量のデータをリアルタイムに格納できます。

このようにデータレイクは、スピーディーに、安価なストレージをほぼ無制限に使えることから、データの蓄積に適したストレージです。しかし、一時的に「とりあえず入れておく」という運用になりやすく、データの活用までには至りません。つまり、データレイクは「湖」ではなく、ただデータを集めただけの見通しの悪い「沼」となる傾向があります。

今後、世界中で生成されるデータ量は、2025 年には 163ZB(ゼタバイト)の規模に達すると予想されています。ビックデータ を「沼」のままにせず、しっかり運用・管理・活用していくために、データカタログが効果的なソリューションとして注目を集めています。

国内外のIoT先進事例100選
Azure Cosmos DB 自習書 - Azure Cosmos DB Gremlin API 編 -

データカタログのユースケース

それでは、データカタログは具体的にどのように活用されているのでしょうか。データカタログは企業内で構築されるケースや、広く公開されるケースなど様々です。ここでは一般に公開されているデータカタログサイトを紹介します。

ケース1.DATA.GO.JP

日本政府が公共データを広く公開している、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータのデータカタログサイトです。各省庁・地方自治体などの約27,000件を超える公共データが集められた、国内最大規模のデータカタログサイトです。

ケース2.東京都オープンデータカタログサイト

東京都が提供するオープンデータカタログサイトです。東京都の防災・医療・福祉や産業雇用など、幅広い分野のデータセットが収集されています。近年では、新型コロナウィルスに関連する情報を取りまとめたサイトや、防災・災害関連の情報を取りまとめたサイトなどにも多く活用されています。またデータカタログサイトは東京都のみならず、多くの地方自治体で公開されています。

ケース3.e-Stat

日本の統計が閲覧できる政府統計ポータルサイトです。データセットとして機械判読可能な形式で取得できるAPI機能も提供しており、小地域・地域メッシュデータが取得できます。機械判読性の高いcsv形式のデータが多いことが特徴であり、様々な外部サービスと連携しています。

ケース4.RESAS

RESASは、Regional Economy Society Analyzing Systemの略です。内閣官房の産業構造や人口動態・人の流れなどに関する官民のビッグデータを集約し、可視化する地域経済分析システムです。

データカタログの開発基盤について

それでは、このようなデータカタログはどのように作成されるのでしょうか。ここではクラウド環境における、データカタログの作成サービスを紹介します。

Azure Data Catalog

Microsoft 社が提供するクラウドサービスであるAzure環境では、Azure Data Catalogが提供されています。Azure Data Catalogは、利用者が必要なデータソースを検出し、メタデータを自動的に抽出・付与することで、データカタログを生成できるフルマネージドのサービスです。また登録されたメタデータは、データソースに注釈を設定するなどカスタマイズも可能です。
Azure Data Catalogは様々なデータベースとの連携が可能であり、Azureのデータベースサービス・Microsoft社のデータベース製品はもちろん、他社の製品やオープンソースのデータベースとも連携できます。

他のクラウド事業者もフルマネージドで提供しているサービスがあります。いずれのサービスも既存のデータベースに対して、設定するサービスです。そのため既存のデータベース・データウェアハウス・データレイクなどが、どのようなデータを蓄積しているのかを概ね把握しておく必要がありますが、ほぼフルマネージドで提供されるため、データカタログの作成は比較的簡易に実行できます。

しかし、データカタログは作成するだけでなく、真にデータを活用するためにはマネジメントが重要です。利用目的に応じて継続的にデータを整理するための運用が欠かせません。そのためには、メタデータの継続的なメンテナンスがポイントと言えるでしょう。

まとめ

ビックデータによるデータ活用 は2010年頃から注目を集め、データ量は急増し、データレイクのような安価でスピーディーなデータストレージサービスが普及しました。近年では、大量のデータを格納しても活用できないという課題に対し、データカタログによってデータを有効活用するソリューションが誕生しました。現在では多くの企業や自治体が、データカタログを利用しています。このように経済発展と社会的課題の解決を両立する社会の取り組みがSociety5.0であり、Society5.0が目指すデータ活用時代がすでに到来しています。

データカタログ作成サービスを検討する場合は、先ほど紹介した「Azure Data Catalog」がおすすめです。「Azure Data Catalog」は、フルマネージドのデータカタログ作成サービスを提供しており、企業に必要なデータを取り出し、ビジネスへ活用することが可能です。
今後はデータカタログがもたらすソリューションのように、データは格納するのではなく活用するのが当たり前の時代になるでしょう。

Microsoft Azure製品カタログ
  • fb-button
  • line-button
  • linkedin-button
RELATED SITES

関連サイト

CONTACT

サイト掲載の
お問い合わせ

TOP