クラウド移行(インフラ・DB)

Azure data lake storage gen2とは?企業のデータ分析基盤を構築する方法を解説

近年、企業がもつデータを分析しビジネスに活用する取り組みが主流となっています。従来の経験や勘が頼りの企業と比べて、データを活用することでビジネスを拡大・回復させた企業は多いです。企業がデータ分析を行うためには、大規模なデータ分析に適した基盤の構築が必要であり、さまざまな事業者からデータ格納基盤が提供されています。特に、ビッグデータといわれる大規模で多種多様なデータを格納できるクラウドストレージサービスが求められています。本記事では、規模や形式を問わず低コストかつ高度なセキュリティのデータ分析基盤を提供する、MicrosoftのAzure data lake storage gen2を紹介します。

Azure data lake storage gen2とは?企業のデータ分析基盤を構築する方法を解説

クラウド移行 まるわかりガイド

Azure data lake storage gen2とは?

Azure data lake storage gen2の概要

azure Data Lake Storage Gen2 は、ビッグデータ分析に特化したクラウドストレージサービスです。

将来的に必要なデータが分からない場合でもデータをそのまま収集・蓄積でき、データ分析基盤のデータ格納庫として役立てられます。

Azure data lake storage gen2の特徴

Azure data lake storage gen2の主な特徴として4つを紹介します。

  • さまざまな分析フレームワークと統合できる
  • 構造化・非構造化などのあらゆるデータを保存可能
  • 階層型名前空間である
  • 拡張性が高い

Azure data lake storage gen2は、「azure data lake storage gen1」と「Azure Blob Storage」の機能を集約しています。

azure data lake storage gen1は、Hadoopベースに構築されており、ビッグデータ分析用にファイルサイズ・データ量の制限なく格納できます。Azure Blob Storageは、大量の非構造化データ(RDBやCSVファイルなど規則性があるデータ)を格納でき、インターネット経由でどこからでもアクセスが可能です。双方の機能を集約することにより、拡張性に優れ、低価格かつ高セキュリティのデータレイクを実現しています。

Azure data lake storage gen2のメリット3選

メリット1.データの管理・アクセスが可能となる

Azure data lake storage gen2はHadoopとの互換性があり、ABFS ドライバーを利用すると、Azure Blob Storage 内のデータにアクセスが可能です。データとメタデータの作成や読み取り・更新・削除などができ、一貫性を備えたデータ管理を実現できます。

メリット2.セキュリティ体制を強化できる

Azure data lake storage gen2は、高度なセキュリティ対策として主に4つの機能を提供しています。

  • 認証
  • アクセス制御
  • 保存時・転送時の暗号化
  • ネットワーク トランスポート セキュリティ

特に、アクセス制御では Azure ロールベースのアクセス制御 (RBAC) と POSIX 準拠アクセス制御リスト (ACL) を組み合わせることで、ディレクトリや個別のファイルに対して、柔軟なアクセス制御を提供しています。

ビッグデータ分析にデータレイクの構築を検討する際、エンド ツー エンドで高度なセキュリティを実現できます。

メリット3.コストを効率的に管理できる

Azure data lake storage gen2は、データのストレージ容量や実行した操作回数・種類・データ転送に応じた月額従量課金制です。Azure Blob Storage ライフサイクル機能を利用すると、データのアクセス頻度により適切なストレージを利用して、コストを最適化できます。

具体的にはデータ保管の初期段階ではホットストレージ、アクセス頻度の低いデータはクールストレージ、保管から1ヵ月以上を経過したデータはアーカイブストレージを利用します。

データがライフサイクルを通じてストレージ移行する際に、ニーズにあわせた最も安価なコストモデルを利用できるため、効率的なコスト管理が実現できます。

Azure data lake storage gen2の利用の手順

Azure Portalからストレージアカウントを作成する

まずは、Azure portalを使用して、Azureストレージのアカウントを作成します。

続いて、詳細設定タブで 「階層型名前空間を有効にする」設定を選択し、Data Lake Storage機能のロックを解除します。

Azure data lake storage gen2にデータを転送する

Azure Data Factoryを使用してAzure Data Lake Storageにデータを読み込む

Azure Data Factoryは、画面上でオンプレミスやクラウドのソースデータ、構造化・非構造化データを収集して連携できるデータ統合管理のクラウドサービスです。

データ分析に必要な情報の抽出の自動化や、ETL(抽出/変換/読み込み)やELT(抽出/読み込み/変換)など、データ統合にも活用できます。

まずは、Azure Portalのメニューから「リソースの作成」を選択、続けて新しいデータファクトリーを作成します。コピーするデータソースを指定し、フォルダとファイルを選択、出力先フォルダを指定したら、パイプラインを実行します。

Azure Event Hubs で Azure Blob Storage または Azure Data Lake Storage にイベントをキャプチャする

Azure Event Hubsを利用すると、継続的に生成されるデータをリアルタイムで自動的に取り込むことができます。

キャプチャを行うタイミングやサイズを柔軟に設定でき、ストリーミングデータを簡単に読み込めるので、担当者はデータの処理に集中できます。

まずは、イベントハブを作成します。アカウントは「Azure Data Lake Storage Gen 2」を選択、コンテナーは (Data Lake Storage Gen 2 のファイル システム) を選択し、自動で配信されるようにキャプチャを有効にします。

データ分析を実施する

ビッグデータ分析に利用できる、Azure Synapse AnalyticsとAzure HDInsightを紹介します。

Azure Synapse Analyticsとは

Azure Synapse Analytics は、ビッグ データ分析を行う無制限の分析サービスです。ペタバイト規模の大容量データに対して自由にクエリを実行できる。高速な分析情報の取得かつ低価格で、データ管理や分析・データサイエンスに役立てられる。利用するプロセスとしては、Synapse ワークスペースの作成、サーバーレスのSQLプールを使用して分析を行います。

Azure HDInsightとは

HDInsightはビッグデータを簡単・迅速に処理できます。HDInsightを利用すると、抽出や変換・読み込みなどのバッチ処理、データ ウェアハウス、データサイエンス、IoT など、幅広いシナリオに対応が可能です。

プロセスとしては、Apache HadoopやSpark・Hive・Kafkaなどのオープンフレームワークを利用して、フレームワークの作成を行います。

まとめ

企業の保有する膨大なデータを、ビジネスにおける意思決定に活用する流れが加速しています。

Azure data lake storage gen2は、大規模かつあらゆるデータを格納し、ビックデータ分析の基盤として活用されています。

クラウドストレージの導入を検討される場合、Azure data lake storage gen2はオンプレミスとクラウド環境におけるデータの管理や高度なセキュリティ体制、コストの効率化の観点で有用なため、ぜひ検討してみてください。

  • fb-button
  • line-button
  • linkedin-button
RELATED SITES

関連サイト

CONTACT

サイト掲載の
お問い合わせ

TOP