Azure Data Lake Storage Gen2 について理解する
データ レイクとは、データをそれ本来の形式 (通常は BLOB またはファイル) で格納するデータ リポジトリです。 Azure Data Lake Storage は、ハイ パフォーマンスの分析用に Azure に組み込まれている、包括的で、高い拡張性があり、セキュリティで保護され、コスト効率に優れたデータ レイク ソリューションです。
ファイル システムとストレージ プラットフォームが統合された Azure Data Lake Storage は、データの分析情報をすばやく識別するのに役立ちます。 Data Lake Storage は、Azure Blob Storage の機能が基になっており、分析ワークロード用に特に最適化されています。 この統合により、Blob Storage の分析パフォーマンス、階層化とデータ ライフサイクル管理機能、および Azure Storage の高可用性、セキュリティ、耐久性の機能が可能になっています。
メリット
Data Lake Storage は、数百ギガバイトのスループットを安全に処理しながら、エクサバイト規模のさまざまな種類および量のデータを処理するよう設計されています。 このため、Data Lake Storage Gen2 はリアルタイム ソリューションとバッチ ソリューションの両方の基礎として使用できます。
Hadoop と互換性のあるアクセス
Data Lake Storage のベネフィットの 1 つは、データを Hadoop 分散ファイル システム (HDFS) に格納されているかのように扱えることです。 この機能では、データを 1 か所に格納し、Azure Databricks、Azure HDInsight、Azure Synapse Analytics などのコンピューティング テクノロジで、環境間でデータを移動せずにデータにアクセスできます。 また、データ エンジニアは、Parquet 形式などのストレージ メカニズムを使うこともできます。この形式は、高度に圧縮され、内部の列形式ストレージを使って複数のプラットフォームで高いパフォーマンスを示します。
セキュリティ
Data Lake Storage では、親ディレクトリのアクセス許可を継承しないアクセス制御リスト (ACL) と Portable Operating System Interface (POSIX) のアクセス許可がサポートされています。 実際には、データ レイク内に格納されているデータに対してディレクトリ レベルまたはファイル レベルでアクセス許可を設定でき、はるかに安全なストレージ システムが提供されます。 このセキュリティは、Hive や Spark などのテクノロジ、または Windows、macOS、Linux で動く Azure Storage Explorer などのユーティリティを使って構成できます。 格納されているすべてのデータは、Microsoft または顧客管理キーのいずれかを使用して保存時に暗号化されます。
パフォーマンス
Azure Data Lake Storage では、格納しているデータをファイル システムのようなディレクトリとサブディレクトリの階層に整理して、簡単に移動できるようにしています。 その結果、データ処理に必要なコンピューティング リソースは少なくなり、時間の短縮とコストの削減ができるようになっています。
データの冗長性
Data Lake Storage では、ローカル冗長ストレージ (LRS) を使って 1 つのデータ センター内で、または geo 冗長ストレージ (GRS) オプションを使ってセカンダリ リージョンにデータの冗長性を提供する、Azure Blob レプリケーション モデルが利用されています。 この機能により、データは常に利用でき、災害の発生時に保護されます。
ヒント
データ エンジニアは、データ レイクを計画するとき常に、構造、データ ガバナンス、セキュリティについて慎重に検討する必要があります。 これには、レイクの構造と編成に影響を与える可能性のある次のような要因に関する検討を含める必要があります。
- 格納するデータの種類
- データの変換方法
- データにアクセスする必要があるユーザー
- 典型的なアクセス パターン
このアプローチは、レイク全体のアクセス制御ガバナンスを計画する方法を決定するのに役立ちます。 データ エンジニアは、データ ガバナンスとデータ品質対策の欠如のために、ユーザーがアクセスして有効に使用することができなくなる、いわゆるデータの泥沼にレイクがならないよう、事前に取り組む必要があります。 Azure Data Lake のベースラインを確立し、そのベスト プラクティスに従うと、組織が成長し、より多くのことを達成するための洞察を得ることができる、適切で堅牢な実装を確保するのに役立ちます。