レイクハウス プラットフォームのスコープ
最新のデータと AI プラットフォーム フレームワーク
Databricks データ インテリジェンス プラットフォームのスコープについて話し合うには、まず、最新のデータと AI プラットフォームの基本的なフレームワークを定義すると便利です。
レイクハウス スコープの概要
Databricks データ インテリジェンス プラットフォームは、完全な最新のデータ プラットフォーム フレームワークを対象としています。 これは、レイクハウス アーキテクチャに基づいて構築され、データの固有の特性を理解するデータ インテリジェンス エンジンを利用します。 ETL、ML/AI、DWH/BI ワークロードのためのオープンで統一された基盤であり、中央データおよび AI ガバナンス ソリューションとして Unity Catalog を備えています。
プラットフォーム フレームワークのペルソナ
フレームワークは、フレームワーク内のアプリケーションを扱う主要なデータ チーム メンバー (ペルソナ) を対象にしています。
- データ エンジニアは、データ サイエンティストやビジネス アナリストに、タイムリーな意思決定とリアルタイムの分析情報を得るための正確で再現可能なデータを提供します。 一貫性と信頼性の高い ETL プロセスを実装して、データに対するユーザーの信頼度と信用を高めます。 これにより、データがビジネスのさまざまな柱と適切に統合されていることが保証され、通常はソフトウェア エンジニアリングのベスト プラクティスに従います。
- データ サイエンティストは、分析の専門知識とビジネスの理解を融合して、データを戦略的な分析情報と予測モデルに変換します。 彼らは、遡及的で解析的な分析情報や将来を見据えた予測モデリングを通じて、ビジネスの課題をデータドリブン ソリューションに変換することに長けています。 データ モデリングと機械学習の手法を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、デプロイします。 彼らは橋渡し役として機能し、複雑なデータ ストーリーを理解可能なストーリーに変換し、ビジネス利害関係者がデータ主導の推奨事項を理解するだけでなく、それに基づいて行動できるようにすることで、組織内の問題解決に対するデータ中心のアプローチを推進します。
- ML エンジニア (機械学習エンジニア) は、機械学習モデルの構築、デプロイ、保守を行うことで、製品とソリューションにおけるデータ サイエンスの実用的な応用をリードします。 彼らの主な焦点は、モデルの開発とデプロイにおけるエンジニアリングの側面にあります。 ML エンジニアは、ライブ環境での機械学習システムの堅牢性、信頼性、スケーラビリティを確保し、データ品質、インフラストラクチャ、パフォーマンスに関連する課題に対処します。 AI および ML モデルを運用ビジネス プロセスとユーザー向け製品に統合することで、ビジネス上の課題を解決するためのデータ サイエンスの利用が容易になり、モデルは研究のみに留まらず、具体的なビジネス価値を促進します。
- ビジネス アナリストは、利害関係者やビジネス チームにアクションにつながるデータを提供します。 多くの場合、データを解釈し、標準 BI ツールを使用して、リーダーシップのためのレポートやその他のドキュメントを作成します。 通常、彼らは、技術系以外のビジネスや運用の同僚が簡単な分析に関する質問をする場合に頼りになる連絡先です。
- ビジネス パートナーは、ますますネットワーク化が進むビジネスの世界において重要な利害関係者です。 彼らは、企業が共通の目標を達成するための正式な関係を持つ企業または個人として定義され、ベンダー、サプライヤー、ディストリビューター、およびその他のサードパーティ パートナーが含まれる場合があります。 データの共有は、データの転送と交換を可能にして、コラボレーションとデータドリブンの意思決定を強化できるため、ビジネス パートナーシップの重要な側面です。
プラットフォーム フレームワークのドメイン
プラットフォームは、複数のドメインで構成されます。
ストレージ: クラウドでは、データは主に、クラウド プロバイダーが提供するスケーラブルで効率的、そして回復性があるオブジェクト ストレージに格納されます。
ガバナンス: アクセス制御、監査、メタデータ管理、系列追跡、すべてのデータと AI 資産の監視などのデータ ガバナンスに関する機能です。
AI エンジン: AI エンジンは、プラットフォーム全体に対して生成 AI 機能を提供します。
取り込みと変換: ETL ワークロードの機能。
高度分析、ML、AI: 機械学習、AI、生成 AI、ストリーミング分析に関するすべての機能。
データ ウェアハウス:: DWH と BI のユース ケースをサポートするドメイン。
オーケストレーション: データ処理、機械学習、分析パイプラインの一元的なワークフロー管理。
ETL および DS ツール: データ エンジニア、データ サイエンティスト、ML エンジニアが主に仕事に使用するフロントエンド ツール。
BI ツール: BI アナリストが主に仕事に使用するフロントエンド ツール。
コラボレーション: 複数の当事者間でのデータの共有の機能。
Databricks プラットフォームのスコープ
Databricks データ インテリジェンス プラットフォームとそのコンポーネントは、次の方法でフレームワークにマップできます。
ダウンロード: レイクハウスのスコープ - Databricks コンポーネント
Azure Databricks のデータ ワークロード
最も重要なのは、Databricks データ インテリジェンス プラットフォームは、Apache Spark/Photon をエンジンとして使用して、データ ドメインに関連するすべてのワークロードを 1 つのプラットフォームでカバーすることです。
取り込みと変換
データ インジェストの場合、自動ローダーは、スケジュールされたジョブまたは継続的なジョブのクラウド ストレージに着陸するファイルを段階的かつ自動的に処理します。状態情報を管理する必要はありません。 取り込まれた生データは、BI と ML/AI に対応できるように変換する必要があります。 Databricks は、データ エンジニア、データ サイエンティスト、アナリストに強力な ETL 機能を提供します。
Delta Live Tables (DLT) を使用すると、ETL ジョブを宣言型の方法で記述できるため、実装プロセス全体が簡略化されます。 データの期待値を定義することで、データ品質を向上させることができます。
高度分析、ML、および AI
このプラットフォームには、Databricks Mosaic AI が付属しています。これは、従来の機械学習やディープ ラーニング、および生成 AIと大規模言語モデル (LLMs) のための、完全に統合された機械学習と AI ツールのセットです。 データの準備から機械学習とディープ ラーニングモデルの構築、Mosaic AI Model Serving までのワークフロー全体が対象です。
Spark Structured Streaming と DLT により、リアルタイム分析が可能になります。
データ ウェアハウス
Databricks データ インテリジェンス プラットフォームには、Databricks SQL を使用した完全なデータ ウェアハウス ソリューションもあり、きめ細かなアクセス制御を備えた Unity Catalog によって一元的に管理されます。
Azure Databricks の機能領域の概要
これは、Databricks データ インテリジェンス プラットフォーム機能を、フレームワークの他のレイヤーに、下から上にマッピングします。
クラウド ストレージ
レイクハウスのすべてのデータは、クラウド プロバイダーのオブジェクト ストレージに保存されます。 Databricks では、AWS、Azure、GCP の 3 つのクラウド プロバイダーがサポートされています。 さまざまな構造化形式と半構造化形式 (Parquet、CSV、JSON、Avro など) のファイルと非構造化形式 (画像やドキュメントなど) は、バッチプロセスまたはストリーミング プロセスを使用して取り込み、変換されます。
Delta Lake は、レイクハウスに推奨されるデータ形式 (ファイル トランザクション、信頼性、整合性、更新など) であり、ロックインを避けるため完全にオープン ソースです。 また、Delta Universal Format (UniForm) を使用すると、Iceberg リーダー クライアントで Delta テーブルを読み取ることができます。
Databricks データ インテリジェンス プラットフォームでは、独自のデータ形式は使用されません。
データ ガバナンス
ストレージ層の上に、Unity Catalog は、メタストアでのメタデータ管理、アクセス制御、監査、データ検出、データ系列など、幅広いデータ ガバナンス機能を提供します。
Lakehouse の監視では、データと AI 資産のすぐに使用できる品質メトリックと、これらのメトリックを視覚化するための自動生成されたダッシュボードが提供されます。
外部 SQL ソースは、lakehouse フェデレーションを使用してレイクハウスと Unity Catalog に統合できます。
AI エンジン
データ インテリジェンス プラットフォームは、レイクハウス アーキテクチャ上に構築され、データ インテリジェンス エンジン DatabricksIQによって強化されます。 DatabricksIQ は、生成 AI とレイクハウス アーキテクチャの統合の利点を組み合わせて、データの独自のセマンティクスを理解します。 インテリジェント検索と Databricks Assistant は、すべてのユーザーのプラットフォームの操作を簡素化する AI を利用したサービスの例です。
オーケストレーション
Databricks ジョブ を使用すると、あらゆるクラウドで完全なデータと AI ライフサイクル向けの多様なワークロードを実行できます。 これにより、ジョブだけでなく、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables を調整できます。
ETL と DS ツール
従量課金レイヤーでは、通常、データ エンジニアと ML エンジニアが IDE を使用してプラットフォームを操作します。 データ サイエンティストは、多くの場合、ノートブックを好み、ML と AI ランタイムを使用し、機械学習ワークフロー システム MLflow を使用して実験を追跡し、モデルのライフサイクルを管理します。
BI ツール
ビジネス アナリストは通常、好みの BI ツールを使用して Databricks データ ウェアハウスにアクセスします。 Databricks SQL は、さまざまな分析および BI ツールでクエリを実行できます。BI と視覚化に関するページをご覧ください
さらに、このプラットフォームには、すぐに使用するクエリおよび分析ツールが用意されています。
コラボレーション
Delta Sharing は、使用するコンピューティング プラットフォームに関係なく、他の組織と安全にデータを共有するために Databricks によって開発されたオープン プロトコルです。
Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。 Delta Sharing を利用して、データ プロバイダーにデータ製品を安全に共有するためのツールを提供し、データ コンシューマーには必要なデータとデータ サービスへのアクセスを探索して拡張する機能を提供します。