データ レイクハウス アーキテクチャ: Databricks の Well-architected フレームワーク
データ レイクハウス アーキテクチャに関するこの一連の記事では、Azure Databricks を使用したレイクハウスの実装と運用に関する原則とベスト プラクティスを提供します。
レイクハウス向けの Databricks の Well-architected フレームワーク
Well-architected レイクハウス は、クラウドでのデータ レイクハウスの実装に関するさまざまな懸念事項を説明する 7 つの柱で構成されています:
データと AI ガバナンス
データと AI が価値をもたらし、ビジネス戦略をサポートするための監視。
相互運用性と使いやすさ
ユーザーやその他のシステムと対話するレイクハウスの機能。
オペレーショナルエクセレンス
運用環境でレイクハウスを継続的に動作させるすべての操作プロセス。
セキュリティ、プライバシー、およびコンプライアンス
Azure Databricks アプリケーション、顧客のワークロード、顧客データを脅威から保護します。
信頼性
障害から回復して動作を続行するシステムの能力です。
パフォーマンス効率
負荷の変化に対応するためのシステムの能力。
コストの最適化
もたらされる価値を最大化するためのコスト管理
適切に設計された lakehouse は、Microsoft Azure Well-Architected Framework を Databricks データ インテリジェンス プラットフォームに拡張し、"Operational Excellence"、"Security" ("Security、 プライバシー、コンプライアンス")、"信頼性"、"パフォーマンス効率"、"コストの最適化"。
これら 5 つの柱については、クラウド フレームワークの原則とベスト プラクティスが引き続き レイクハウスに適用されます。 よく設計されたレイクハウス は、効果的かつ効率的なレイクハウスを構築するために、レイクハウスに固有の原則とベストプラクティスでこれらを拡張します。
レイクハウス固有の柱
"データと AI ガバナンス" と "相互運用性と使いやすさの" の柱は、レイクハウス固有の懸念事項をカバーしています。
データと AI ガバナンスは、組織内のデータと AI 資産を安全に管理するために実装されたポリシーとプラクティスをカプセル化します。 Lakehouse の基本的な側面の 1 つは、一元化されたデータと AI ガバナンスです。Lakehouse では、データ ウェアハウスと AI ユース ケースが 1 つのプラットフォームに統合されます。 これにより、従来はデータ エンジニアリング、分析、BI、データ サイエンス、機械学習を分離して複雑化するデータ サイロを排除することで、最新のデータ スタックが簡素化されます。 これらのガバナンス タスクを簡略化するために、Lakehouse には、データ、分析、AI 用の統合されたガバナンス ソリューションが用意されています。 データのコピーを最小限に抑え、すべてのデータと AI ガバナンス コントロールを一緒に実行できる単一のデータ処理レイヤーに移行することで、コンプライアンスを維持し、データ侵害を検出する可能性が向上します。
レイクハウスのもう 1 つの重要な基本原則は、関わるすべての人に優れたユーザー エクスペリエンスを提供し、外部システムの広範なエコシステムと対話できることです。 Azure には、データドリブンの企業が必要とするであろうほとんどのタスクを実行するさまざまなデータ ツールが既に用意されています。 ただし、すべての機能を活用するにはこれらのツールを適切に組み立てる必要があり、各サービスでのユーザー エクスペリエンスもそれぞれ異なります。 このようなアプローチは実装コストが高くなる可能性があり、ネイティブのレイクハウス プラットフォームと同等のユーザー エクスペリエンスを提供できません。つまり、ユーザーはツール間の不整合とコラボレーション機能の欠如によって制限され、多くの場合、システムやデータにアクセスするために複雑なプロセスを経る必要があるのです。
一方で統合されたレイクハウスは、すべてのワークロードで一貫したユーザー エクスペリエンスを提供するため、使いやすさが向上します。 これにより、トレーニングとオンボーディングのコストが削減され、機能間のコラボレーションが向上します。 さらに、ユーザー エクスペリエンスをさらに向上させるために、新しい機能が時間の経過と共に自動的に追加されます。内部リソースや予算を投資する必要はありません。
マルチクラウド アプローチは、会社の意図的な戦略、または合併や買収の結果、またはそれぞれの部署で異なるクラウド プロバイダーを選択した結果であることがあります。 この場合、マルチクラウド レイクハウスを使用すると、すべてのクラウドで統一されたユーザー エクスペリエンスが得られます。 これにより、企業全体において様々なシステムがねずみ算的に増えることを抑え、データドリブン タスクに関与する従業員のスキルとトレーニングの要件が減少します。
最後に、企業間のビジネス プロセスを持つネットワーク化された世界では、システムは可能な限りシームレスに連携する必要があります。 相互運用性の程度はここで重要な基準であり、最新のデータは、あらゆるビジネスの中核となる資産として、内部および外部のパートナーのシステム間で安全に流れる必要があります。