Microsoft Fabric のレイクハウスを探索する
レイクハウスはデータベースとして表示され、Delta 形式テーブルを使用して、データ レイクを基盤として構築されます。 レイクハウスは、リレーショナル データ ウェアハウスの SQL ベースの分析機能と、データ レイクの柔軟性とスケーラビリティを組み合わせたものです。 レイクハウスにすべてのデータ形式を格納し、さまざまな分析ツールやプログラミング言語で使用できます。 クラウドベースのソリューションとして、レイクハウスは自動的にスケーリングされ、高可用性とディザスター リカバリーを提供できます。
レイクハウスには、次のような利点があります。
- レイクハウスを使用すると、Spark エンジンと SQL エンジンを使用して大規模なデータを処理し、機械学習または予測モデリング分析をサポートできます。
- レイクハウス データは、"スキーマ オン リード形式" で編成されます。これは定義済みのスキーマを使用するのではなく、自分で必要に応じてスキーマを定義することを意味します。
- レイクハウスを使用すると、データの一貫性と整合性のための ACID (原子性、一貫性、分離性、持続性) トランザクションが Delta Lake 形式のテーブルを介してサポートされます。
- レイクハウスは、データ エンジニア、データ サイエンティスト、データ アナリストがデータにアクセスして使用するための一元化された場所です。
レイクハウスは、データの一貫性が維持されるスケーラブルな分析ソリューションが必要な場合に最適なオプションです。 どのソリューションが最適かを判断するには、特定の要件を評価することが重要です。
レイクハウスにデータを読み込む
Fabric レイクハウスは、分析ソリューションの中心的な要素です。 ETL (抽出、変換、読み込み) プロセスに従って、レイクハウスに読み込む前にデータを取り込んで変換できます。
ローカル ファイル、データベース、API など、さまざまなソースから多くの一般的な形式でデータを取り込むことができます。 Azure Data Lake Store Gen2 や OneLake などの外部ソースのデータに対して、Fabric のショートカットを作成することもできます。 レイクハウス エクスプローラーを使用すると、ファイル、フォルダー、ショートカット、テーブルを参照し、Fabric プラットフォーム内でその内容を表示できます。
取り込まれたデータは、ノートブックとともに Apache Spark またはデータフロー Gen2 を使用して変換し、読み込むことができます。 Data Factory パイプラインを使用して、さまざまな ETL アクティビティを調整し、準備されたデータをレイクハウスに配置します。
Note
Power Query は、従来のプログラミングの代替として変換を視覚的に表現する、Excel または Power BI を使用しているデータ アナリストにとって使い慣れたツールであり、データフロー Gen2 はこれに基づいています。
次のようなさまざまな理由で、レイクハウスを使用できます。
- SQL を使用して分析します。
- 機械学習モデルをトレーニングします。
- リアルタイム データに対して分析を実行します。
- Power BI でレポートを開発します。
レイクハウスをセキュリティで保護する
レイクハウス アクセスは、ワークスペースまたはアイテム レベルの共有を通じて管理されます。 ワークスペース ロールはワークスペース内のすべてのアイテムへのアクセス権を付与するため、コラボレーターにこれらのロールを使用する必要があります。 アイテム レベルの共有は、分析や Power BI レポートの開発など、読み取り専用のニーズに対してアクセス権を付与するために最適です。
Fabric レイクハウスでは、秘密度ラベルを含むデータ ガバナンス機能もサポートされており、Fabric テナントで Microsoft Purview を使用して拡張できます。
Note
詳細については、「Microsoft Fabric のセキュリティ」のドキュメントを参照してください。