クラウド移行(インフラ・DB)

Azure data lake storage gen2とは?企業のデータ分析基盤を構築する方法を解説

近年、企業がもつデータを分析しビジネスに活用する取り組みが主流となっています。従来の経験や勘が頼りの企業と比べて、データを活用することでビジネスを拡大・回復させた企業は多いです。企業がデータ分析を行うためには、大規模なデータ分析に適した基盤の構築が必要であり、さまざまな事業者からデータ格納基盤が提供されています。特に、ビッグデータといわれる大規模で多種多様なデータを格納できるクラウドストレージサービスが求められています。本記事では、規模や形式を問わず低コストかつ高度なセキュリティのデータ分析基盤を提供する、MicrosoftのAzure data lake storage gen2を紹介します。

Azure data lake storage gen2とは?企業のデータ分析基盤を構築する方法を解説

Azure SQL DatabaseとSQL Serverの違いは?

Azure data lake storage gen2とは?

Azure data lake storage gen2の概要

azure Data Lake Storage Gen2 は、ビッグデータ分析に特化したクラウドストレージサービスです。

将来的に必要なデータが分からない場合でもデータをそのまま収集・蓄積でき、データ分析基盤のデータ格納庫として役立てられます。

Azure data lake storage gen2の特徴

Azure data lake storage gen2の主な特徴として4つを紹介します。

  • さまざまな分析フレームワークと統合できる
  • 構造化・非構造化などのあらゆるデータを保存可能
  • 階層型名前空間である
  • 拡張性が高い

Azure data lake storage gen2は、「azure data lake storage gen1」と「Azure Blob Storage」の機能を集約しています。

azure data lake storage gen1は、Hadoopベースに構築されており、ビッグデータ分析用にファイルサイズ・データ量の制限なく格納できます。Azure Blob Storageは、大量の非構造化データ(RDBやCSVファイルなど規則性があるデータ)を格納でき、インターネット経由でどこからでもアクセスが可能です。双方の機能を集約することにより、拡張性に優れ、低価格かつ高セキュリティのデータレイクを実現しています。

プロジェクト管理スタートアップガイド
人は職場でどのように時間を使っているのか

Azure data lake storage gen2のメリット3選

メリット1.データの管理・アクセスが可能となる

Azure data lake storage gen2はHadoopとの互換性があり、ABFS ドライバーを利用すると、Azure Blob Storage 内のデータにアクセスが可能です。データとメタデータの作成や読み取り・更新・削除などができ、一貫性を備えたデータ管理を実現できます。

メリット2.セキュリティ体制を強化できる

Azure data lake storage gen2は、高度なセキュリティ対策として主に4つの機能を提供しています。

  • 認証
  • アクセス制御
  • 保存時・転送時の暗号化
  • ネットワーク トランスポート セキュリティ

特に、アクセス制御では Azure ロールベースのアクセス制御 (RBAC) と POSIX 準拠アクセス制御リスト (ACL) を組み合わせることで、ディレクトリや個別のファイルに対して、柔軟なアクセス制御を提供しています。

ビッグデータ分析にデータレイクの構築を検討する際、エンド ツー エンドで高度なセキュリティを実現できます。

メリット3.コストを効率的に管理できる

Azure data lake storage gen2は、データのストレージ容量や実行した操作回数・種類・データ転送に応じた月額従量課金制です。Azure Blob Storage ライフサイクル機能を利用すると、データのアクセス頻度により適切なストレージを利用して、コストを最適化できます。

具体的にはデータ保管の初期段階ではホットストレージ、アクセス頻度の低いデータはクールストレージ、保管から1ヵ月以上を経過したデータはアーカイブストレージを利用します。

データがライフサイクルを通じてストレージ移行する際に、ニーズにあわせた最も安価なコストモデルを利用できるため、効率的なコスト管理が実現できます。

Azure data lake storage gen2の利用の手順

Azure Portalからストレージアカウントを作成する

まずは、Azure portalを使用して、Azureストレージのアカウントを作成します。

続いて、詳細設定タブで 「階層型名前空間を有効にする」設定を選択し、Data Lake Storage機能のロックを解除します。

Azure data lake storage gen2にデータを転送する

Azure Data Factoryを使用してAzure Data Lake Storageにデータを読み込む

Azure Data Factoryは、画面上でオンプレミスやクラウドのソースデータ、構造化・非構造化データを収集して連携できるデータ統合管理のクラウドサービスです。

データ分析に必要な情報の抽出の自動化や、ETL(抽出/変換/読み込み)やELT(抽出/読み込み/変換)など、データ統合にも活用できます。

まずは、Azure Portalのメニューから「リソースの作成」を選択、続けて新しいデータファクトリーを作成します。コピーするデータソースを指定し、フォルダとファイルを選択、出力先フォルダを指定したら、パイプラインを実行します。

Azure Event Hubs で Azure Blob Storage または Azure Data Lake Storage にイベントをキャプチャする

Azure Event Hubsを利用すると、継続的に生成されるデータをリアルタイムで自動的に取り込むことができます。

キャプチャを行うタイミングやサイズを柔軟に設定でき、ストリーミングデータを簡単に読み込めるので、担当者はデータの処理に集中できます。

まずは、イベントハブを作成します。アカウントは「Azure Data Lake Storage Gen 2」を選択、コンテナーは (Data Lake Storage Gen 2 のファイル システム) を選択し、自動で配信されるようにキャプチャを有効にします。

データ分析を実施する

ビッグデータ分析に利用できる、Azure Synapse AnalyticsとAzure HDInsightを紹介します。

Azure Synapse Analyticsとは

Azure Synapse Analytics は、ビッグ データ分析を行う無制限の分析サービスです。ペタバイト規模の大容量データに対して自由にクエリを実行できる。高速な分析情報の取得かつ低価格で、データ管理や分析・データサイエンスに役立てられる。利用するプロセスとしては、Synapse ワークスペースの作成、サーバーレスのSQLプールを使用して分析を行います。

Azure HDInsightとは

HDInsightはビッグデータを簡単・迅速に処理できます。HDInsightを利用すると、抽出や変換・読み込みなどのバッチ処理、データ ウェアハウス、データサイエンス、IoT など、幅広いシナリオに対応が可能です。

プロセスとしては、Apache HadoopやSpark・Hive・Kafkaなどのオープンフレームワークを利用して、フレームワークの作成を行います。

まとめ

企業の保有する膨大なデータを、ビジネスにおける意思決定に活用する流れが加速しています。

Azure data lake storage gen2は、大規模かつあらゆるデータを格納し、ビックデータ分析の基盤として活用されています。

クラウドストレージの導入を検討される場合、Azure data lake storage gen2はオンプレミスとクラウド環境におけるデータの管理や高度なセキュリティ体制、コストの効率化の観点で有用なため、ぜひ検討してみてください。

「仕事の解剖学」インデックス 2022
  • fb-button
  • line-button
  • linkedin-button
RELATED SITES

関連サイト

CONTACT

サイト掲載の
お問い合わせ

TOP