Microsoft Fabric レイクハウスを使用する

完了

Microsoft Fabric レイクハウスのコア機能を理解したので、その機能を使用する方法を調べてみましょう。

レイクハウスを作成して探索する

新しいレイクハウスを作成すると、ワークスペースに 3 つの異なるデータ項目が自動的に作成されます。

  • レイクハウスには、ショートカット、フォルダー、ファイル、テーブルが含まれています。
  • セマンティック モデル (既定) には、Power BI レポート開発者向けの簡単なデータ ソースが用意されています。
  • SQL 分析エンドポイントでは、SQL を使用してデータのクエリを実行するための読み取り専用アクセスが許可されます。

説明されている 3 つのレイクハウス項目のスクリーンショット。

レイクハウスのデータは、次の 2 つのモードで操作できます。

  • レイクハウスを使用すると、レイクハウスにテーブル、ファイル、フォルダーを追加して操作できます。
  • SQL 分析エンドポイントを使用すると、SQL を使用してレイクハウス内のテーブルに対してクエリを実行し、そのリレーショナル セマンティック モデルを管理できます。

レイクハウスの 2 つのエクスプローラー モードのスクリーンショット。

レイクハウスにデータを取り込む

レイクハウスへのデータの取り込みは、ETL プロセスの最初の手順です。 次のいずれかの方法を使用して、レイクハウスにデータを取り込みます。

  • アップロード: ローカル ファイルをアップロードします。
  • データフロー Gen2:Power Query を使用してデータをインポートして変換します。
  • ノートブック:Apache Spark を使用して、データの取り込み、変換、読み込みを行います。
  • データ ファクトリ パイプライン:データのコピー アクティビティを使用します。

これにより、このデータをファイルまたはテーブルに直接読み込むことができるようになります。 ステージング テーブルを処理または使用する前に、データを取り込むときにデータ読み込みパターンを検討し、すべての生データをファイルとして読み込む必要があるかどうかを判断してください。

Spark ジョブ定義を使用して、バッチ/ストリーミング ジョブを Spark クラスターに送信することもできます。 異なる言語のコンパイル出力 (Java の .jar など) からバイナリ ファイルをアップロードすることで、レイクハウスでホストされているデータに異なる変換ロジックを適用できます。 バイナリ ファイルに加えて、追加のライブラリとコマンド ライン引数をアップロードすることで、ジョブの動作をさらにカスタマイズできます。

Note

詳細については、「Apache Spark ジョブ定義を作成する」を参照してください。

ショートカットを使ってデータにアクセスする

Fabric でデータにアクセスして使うには、"ショートカット" を使う方法もあります。 ショートカットを使うと、データを外部のストレージに保存したまま、レイクハウスに統合することができます。

ショートカットは、別のストレージ アカウントだけでなく、別のクラウド プロバイダーにあるデータを取得する必要がある場合に便利です。 自分のレイクハウス内には、異なるストレージ アカウントや他の Fabric 項目 (データ ウェアハウス、KQL データベース、他のレイクハウスなど) を指すショートカットを作成できます。

ソース データのアクセス許可と資格情報は、すべて OneLake によって管理されます。 別の OneLake の場所へのショートカットを介してデータにアクセスする場合、ショートカットのターゲット パス内にあるデータへのアクセスを認可するために、呼び出し元ユーザーの ID が使われます。 このユーザーがデータを読み取るには、ターゲットの場所のアクセス許可を持っている必要があります。

ショートカットは、レイクハウスと KQL データベースの両方に作成できます。また、レイク内のフォルダーとして表示されます。 これにより、Spark、SQL、リアルタイム インテリジェンス、Analysis Services はすべて、データのクエリ時にショートカットを利用できます。

Note

ショートカットの使用方法の詳細については、Microsoft Fabric のドキュメントの OneLake ショートカットに関するドキュメントを参照してください。