Data Lakehouse の相互運用性と使いやすさ
この記事では、ユーザーや他のシステムとのレイクハウスの相互作用を参照して、相互運用性と使いやすさの 柱のアーキテクチャの原則について説明します。 レイクハウスの基本的なアイデアの 1 つは、それを操作するすべてのペルソナに優れたユーザー エクスペリエンスを提供し、外部システムの幅広いエコシステムと対話できることです。
- 相互運用性 は、システムが他のシステムと連携して統合する機能です。 これは、異なるコンポーネントと製品、場合によっては複数のベンダーからの、および同じ製品の過去と将来のバージョン間の相互作用を意味します。
- ユーザビリティ は、システムがユーザーが安全かつ効果的かつ効率的にタスクを実行できるようにする方法の尺度です。
この柱の原則に従うと、次のことが役立ちます。
- 一貫性のある共同作業のユーザー エクスペリエンスを実現します。
- クラウド間の相乗効果を活用します。
- レイクハウスとの間の統合を簡素化します。
- トレーニングと有効化のコストを削減します。
最終的には、より迅速に価値を実現することにつながります。
相互運用性と使いやすさの原則
統合 の標準を定義する
統合にはさまざまな側面があり、さまざまな方法で実行できます。 ツールとアプローチの急増を回避するには、ベスト プラクティスを定義し、適切にサポートされ、推奨されるツールとコネクタの一覧を提供する必要があります。
アーキテクチャの主要な原則の 1 つは、緊密な統合ではなく、モジュール性と疎結合です。 これにより、コンポーネントとワークロード間の依存関係が減少し、副作用を排除し、さまざまな時間スケールで独立した開発が可能になります。 データセットとそのスキーマをコントラクトとして使用します。 データ ラングリング ジョブ (データレイクへのデータの読み込みと変換など) などのワークロードを、付加価値ジョブ (レポート、ダッシュボード、データ サイエンス機能エンジニアリングなど) から分離します。 データ形式、データ品質、およびデータ ライフサイクルのガイドラインを使用して、中央データ カタログを定義します。
オープン インターフェイスとオープン データ形式を使用
多くの場合、ソリューションは、特定のシステムを介してのみデータにアクセスできる場所で開発されます。 これにより、ベンダーのロックインにつながる可能性がありますが、そのシステム経由のデータ アクセスにライセンス料金が課される場合は、大きなコスト ドライバーになる可能性もあります。 オープン データ形式とインターフェイスを使用すると、これを回避するのに役立ちます。 また、既存のシステムとの統合を簡素化し、既にツールを Lakehouse と統合しているパートナーのエコシステムを開きます。
データ サイエンスに Python や R などのオープン ソース エコシステムを使用する場合、またはデータ アクセスとアクセス権の制御に Spark または ANSI SQL を使用する場合は、プロジェクトの担当者を簡単に検索できます。 また、プラットフォームとの間の潜在的な移行も簡略化されます。
新しいユース ケースの実装 を簡略化する
データ レイク内のデータを最大限に活用するには、ユーザーがプラットフォームにユース ケースを簡単にデプロイできる必要があります。 これは、プラットフォームアクセスとデータ管理に関する無駄のないプロセスから始まります。 たとえば、プラットフォームへのセルフサービス アクセスは、中央チームがボトルネックになることを防ぐのに役立ちます。 新しい環境をデプロイするための共有環境と定義済みのブループリントにより、プラットフォームをビジネス ユーザーが迅速に利用できるようになります。
データの整合性と使いやすさを確保
データ プラットフォーム上の 2 つの重要なアクティビティは、データ公開
と、 データ消費 です。 発行の観点からは、データを製品として提供する必要があります。 発行元はコンシューマーを念頭に置いて定義されたライフサイクルに従う必要があり、データはマネージド スキーマや説明などを使用して明確に定義する必要があります。また、コンシューマーがさまざまなデータ セットを簡単に理解して正しく結合できるように、意味的に一貫性のあるデータを提供することも重要です。 さらに、すべてのデータは、適切にキュレーションされたメタデータとデータ系列を含む中央カタログを通じて、コンシューマーが簡単に検出およびアクセスできる必要があります。
次へ: 相互運用性と使いやすさに関するベスト プラクティス
相互運用性と使いやすさ