データ レイクハウス アーキテクチャ: Databricks の Well-architected フレームワーク
データ レイクハウス アーキテクチャに関するこの一連の記事では、Azure Databricks を使用したレイクハウスの実装と運用に関する原則とベスト プラクティスを提供します。
レイクハウス向けの Databricks の Well-architected フレームワーク
Well-architected レイクハウス は、クラウドでのデータ レイクハウスの実装に関するさまざまな懸念事項を説明する 7 つの柱で構成されています:
データ ガバナンス
確実にデータを有用に活用し、価値をもたらし、ビジネス戦略をサポートするための監視。
相互運用性と使いやすさ
ユーザーやその他のシステムと対話するレイクハウスの機能。
オペレーショナルエクセレンス
運用環境でレイクハウスを継続的に動作させるすべての操作プロセス。
セキュリティ、プライバシー、およびコンプライアンス
Azure Databricks アプリケーション、顧客のワークロード、顧客データを脅威から保護します。
信頼性
障害から回復して動作を続行するシステムの能力です。
パフォーマンス効率
負荷の変化に対応するためのシステムの能力。
コストの最適化
もたらされる価値を最大化するためのコスト管理
Well-architected レイクハウスは、Microsoft Azure Well-Architected フレームワークを Databricks データ インテリジェンス プラットフォームに拡張し、"オペレーショナル エクセレンス"、"セキュリティ" ("セキュリティ、プライバシー、コンプライアンス"として)、"信頼性"、"パフォーマンス効率"、"コストの最適化" の柱を共有しています。
これら 5 つの柱については、クラウド フレームワークの原則とベスト プラクティスが引き続き レイクハウスに適用されます。 Well-architected レイクハウスは、効果的で効率的なレイクハウスを構築するために重要な、レイクハウスに固有の原則とベスト プラクティスでこれらを拡張します。
レイクハウス アーキテクチャでのデータ ガバナンスと相互運用性と使いやすさ
"データ ガバナンス" と "相互運用性と使いやすさ" の柱は、レイクハウス固有の懸念事項をカバーしています。
データ ガバナンスには、組織内のデータ資産を安全に管理するために実装されるポリシーとプラクティスが含まれています。 レイクハウスの基本的な側面の 1 つは、一元化されたデータ ガバナンスです。レイクハウスは、データ ウェアハウスと AI のユース ケースを 1 つのプラットフォームで統合します。 これにより、従来はデータ エンジニアリング、分析、BI、データ サイエンス、機械学習を分離して複雑化するデータ サイロを排除することで、最新のデータ スタックが簡素化されます。 データ ガバナンスを簡素化するために、レイクハウスには、データ、分析、AI 用の統合されたガバナンス ソリューションが用意されています。 データのコピーを最小限に抑え、すべてのデータ ガバナンス コントロールを一緒に実行できる単一のデータ処理レイヤーに移行することで、コンプライアンスを維持し、データ侵害を検出する可能性を高めることができます。
レイクハウスのもう 1 つの重要な基本原則は、関わるすべての人に優れたユーザー エクスペリエンスを提供し、外部システムの広範なエコシステムと対話できることです。 Azure には、データドリブンの企業が必要とするであろうほとんどのタスクを実行するさまざまなデータ ツールが既に用意されています。 ただし、すべての機能を活用するにはこれらのツールを適切に組み立てる必要があり、各サービスでのユーザー エクスペリエンスもそれぞれ異なります。 このようなアプローチは実装コストが高くなる可能性があり、ネイティブのレイクハウス プラットフォームと同等のユーザー エクスペリエンスを提供できません。つまり、ユーザーはツール間の不整合とコラボレーション機能の欠如によって制限され、多くの場合、システムやデータにアクセスするために複雑なプロセスを経る必要があるのです。
一方で統合されたレイクハウスは、すべてのワークロードで一貫したユーザー エクスペリエンスを提供するため、使いやすさが向上します。 これにより、トレーニングとオンボーディングのコストが削減され、機能間のコラボレーションが向上します。 さらに、ユーザー エクスペリエンスをさらに向上させるために、新しい機能が時間の経過と共に自動的に追加されます。内部リソースや予算を投資する必要はありません。
マルチクラウド アプローチは、会社の意図的な戦略、または合併や買収の結果、またはそれぞれの部署で異なるクラウド プロバイダーを選択した結果であることがあります。 この場合、マルチクラウド レイクハウスを使用すると、すべてのクラウドで統一されたユーザー エクスペリエンスが得られます。 これにより、企業全体において様々なシステムがねずみ算的に増えることを抑え、データドリブン タスクに関与する従業員のスキルとトレーニングの要件が減少します。
最後に、企業間のビジネス プロセスを持つネットワーク化された世界では、システムは可能な限りシームレスに連携する必要があります。 相互運用性の程度はここで重要な基準であり、最新のデータは、あらゆるビジネスの中核となる資産として、内部および外部のパートナーのシステム間で安全に流れる必要があります。