クラウド規模の分析での Azure Data Lake Storage の概要

[アーティクル]
2024-10-10

Azure Data Lake は、高パフォーマンスの分析ワークロード用の非常にスケーラブルで安全なデータレイクです。クラウド規模の分析のために、1 つのリソースグループ内にストレージアカウントを作成できます。クラウド規模の分析アーキテクチャデータランディングゾーンの概要に関する記事で説明されている storage-rg リソースグループと類似の 1 つのリソースグループ内に 3 つの Azure Data Lake Storage Gen2 アカウントをプロビジョニングすることをお勧めします。

データランディングゾーン内の各ストレージアカウントは、メダリオンアーキテクチャに対応する 3 つのステージのいずれかでデータを格納します。

未加工データ (ブロンズ)
エンリッチ済みデータ (シルバー) およびキュレーション済みデータ (ゴールド)
開発データレイク

データアプリケーションは、自動データに依存しないインジェストサービスを取り込んだストレージアカウントから、強化され、キュレーションされたデータを使用できます。データに依存しないエンジンの実装や、運用ソースからデータを取り込むための複雑な接続の利用をしない場合は、ソースに合わせたデータアプリケーションを作成できます。このデータアプリケーションは、外部データソースからデータを取り込むときに、データに依存しないエンジンと同じフローに従います。

Data Lake Storage Gen2 では、ファイルレベルとフォルダーレベルでデータを保護する詳細なアクセス制御リスト (ACL) がサポートされます。アクセス制御リストは、データ製品で次の作業を行うために、組織が認証と承認のための厳格なセキュリティ対策を実装するのに役立ちます。

保存時に、暗号化によってデータを安全に保存します。
Microsoft Entra の統合による Microsoft Entra ユーザーとセキュリティグループのアクセスの制御。

データレイクの計画

データレイクを計画するときは、構造、ガバナンス、およびセキュリティについて該当する考慮事項を常に検討してください。次のような複数の要因が各データレイクの構造と組織に影響を及ぼします。

格納するデータの種類
データの変換方法
データにアクセスするユーザー
典型的なアクセスパターン

データアクセスのニーズに基づいてコンシューマーとプロデューサーをグループ化します。データレイク全体の実装とアクセス制御ガバナンスを計画することをお勧めします。

データレイクにいくつかのデータ資産と、抽出、変換、読み込み (ETL) オフロードなどの自動化されたプロセスが含まれている場合、計画はかなり簡単である可能性が高くなります。データレイクに何百ものデータアセットが含まれており、自動および手動による操作が含まれる場合は、データ所有者とのコラボレーションがさらに必要になるため、計画に長い時間がかかることを想定してください。

データスワンプという比喩

データスワンプとは、ユーザーがほとんどアクセスできない、管理されていないデータレイクのことです。データスワンプは、データの品質とデータガバナンスの対策を実装していないときに発生します。既存のハイブリッドモデルを持つデータウェアハウスにデータスワンプが存在することがあります。

適切なガバナンスと組織によって、データスワンプが防止されます。データレイクの強固な基盤を構築すると、データレイクを持続的に成功させ、ビジネスの価値を向上させる可能性が高まります。

データレイクの規模、複雑さ、データ資産の数、およびユーザーや部門の数が増大するにつれて、堅牢なデータカタログシステムを持つことがますます重要になります。データカタログシステムを使用すると、データレイクの処理、使用、管理中に、ユーザーがデータを検索、タグ付け、分類できるようになります。

詳細については、データガバナンスの概要に関する記事を参照してください。

論理データレイク内のストレージアカウント

組織で 1 つまたは複数のストレージアカウントが必要かどうかを検討し、論理データレイクを構築するために必要なファイルシステムを検討します。 1 つのストレージテクノロジに、複数のデータアクセス方法が用意されていて、組織全体にわたる標準化に役立ちます。

Data Lake Storage Gen2 は、フルマネージドのサービスとしてのプラットフォーム (PaaS) です。複数のストレージアカウントやファイルシステムは、データのアクセスや格納があるまで、金銭的コストが発生しません。各 Azure リソースでは、プロビジョニング、セキュリティ、ガバナンス (バックアップやディザスターリカバリーなど) 中に、管理および運用のオーバーヘッドが発生します。

Note

各データランディングゾーンには、3 つのデータレイクが示されています。ただし、要件によっては、生、強化、キュレーションのレイヤーを 1 つのストレージアカウントに統合できる場合があります。データコンシューマーが他の有用なデータ製品を持ち込むことができる、"開発" という別のストレージアカウントも作成できます。

統合と 3 つのストレージアカウントアプローチのどちらかに決定するときは、次の要因を考慮してください。

データ環境の分離と予測可能性
- 重要な意思決定に必要なビジネス価値の高いデータを保持するキュレーション済みゾーンへの潜在的な影響を回避するには、未加工ゾーンと開発ゾーンで実行されるアクティビティを分離します
ストレージアカウントレベルの特徴と機能
- ライフサイクル管理オプションまたはファイアウォール規則を、データランディングゾーンとデータレイクレベルのどちらで適用するかを選択できます。
- 不要なサイロ以外の、複数のストレージアカウントを作成します。
- 組織全体の可視性や知識の共有が損なわれないように、重複するデータプロジェクトを避けます。
- 適切なデータガバナンス、プロジェクト追跡ツール、およびデータカタログを配置するようにします。
構成されたアクセス許可に基づく複数のレイクにまたがるデータに対するデータ処理ツールとテクノロジの相互作用
リージョンとグローバルのレイク
- レイク上のグローバルに分散されたコンシューマーまたはプロセスは、地理的な距離によって発生する待機時間の影響を受けます。
- データをローカルに格納することをお勧めします。
- 規制上の制約とデータ主権の観点から、データを特定の地域内に留めることが必要な可能性があります。
- 詳細については「複数リージョンのデプロイ」を参照してください。

複数リージョンのデプロイ

データ所在地ルールまたはユーザーの拠点近くにデータを保持する要件によって制限されるときは、複数の Azure リージョンに Azure Data Lake アカウントを作成することが必要になる場合があります。 1 つのリージョンにデータランディングゾーンを作成し、AzCopy、Azure Data Factory、またはパートナー製品を使用して、グローバルデータをレプリケートする必要があります。ローカルデータはリージョン内に存在し、グローバルデータは複数のリージョンにレプリケートされます。

次のステップ

データレイクのゾーンとコンテナー

次の方法で共有

クラウド規模の分析での Azure Data Lake Storage の概要

データ レイクの計画

データ スワンプという比喩

論理データ レイク内のストレージ アカウント

複数リージョンのデプロイ

次のステップ

フィードバック

その他のリソース

データレイクの計画

データスワンプという比喩

論理データレイク内のストレージアカウント