イベントハウス OneLake の可用性
イベントハウスで KQL データベース データの論理コピーを作成するには、OneLake 可用性を有効にします。 OneLake 可用性をオンにすることは、KQL データベースにおいて、Power BI の Direct Lake モード、Warehouse、Lakehouse、Notebooks などの他の Fabric エンジンを経由して、Delta Lake 形式でデータのクエリを実行できることを意味します。
Delta Lake は、Microsoft Fabric のすべてのコンピューティング エンジンにわたってシームレスなデータ アクセスを実現する統合データ レイク テーブル形式です。 Delta Lake の詳細については、「Delta Lake とは」を参照してください。
この記事では、OneLake で KQL データベース データの可用性を有効にする方法について説明します。
しくみ
データベースレベルまたはテーブル レベル OneLake 可用性 を有効にすることができます。 データベース レベルで有効にすると、すべての新しいテーブルとそのデータが OneLake で使用できるようになります。 この機能を有効にする場合は、[既存のテーブルに適用] オプションを選択して、このオプションを既存のテーブルに適用することもできます。 テーブル レベルで有効にすると、そのテーブルとそのデータのみが OneLake で使用できるようになります。 KQL データベースの データ保持ポリシー は、OneLake のデータにも適用されます。 保存期間の終了時に KQL データベースから削除されるデータは、OneLake からも削除されます。 OneLake 可用性をオフにすると、データは OneLake から論理削除されます。
OneLake の可用性 が有効になっている間は、次のタスクを実行することはできません。
- テーブルの名前を変更する
- テーブル スキーマの変更
- テーブルに行レベルのセキュリティを適用する
- データを削除、切り捨て、または消去することはできません
これらのタスクのいずれかを実行する必要がある場合は、次の手順を使用します。
重要
OneLake 可用性をオフにすると、データは OneLake から論理削除されます。 可用性を有効に戻すと、OneLake で新しいデータのみが使用可能になり、削除されたデータのバックフィルは行われません。
OneLake 可用性をオフにします。
目的のタスクを実行します。
OneLake 可用性をオンにします。
重要
OneLake にデータが表示されるまでの時間の詳細については、「アダプティブ動作の 」を参照してください。
[OneLake の可用性] をオンにするための追加のストレージ コストはありません。 詳細については、「リソースの使用」を参照してください。
前提条件
- Microsoft Fabric 対応容量を持つワークスペース
- 編集アクセス許可を持っていてデータがある KQL データベース
OneLake 可用性をオンにする
KQL データベースまたはテーブル レベルで OneLake 可用性をオンにできます。
[OneLake 可用性] をオンにするには、KQL データベースまたはテーブルの詳細ペインの [OneLake] セクションを参照してください。
[可用性] を [オン] にします。
データベースは自動的に更新されます。
KQL データベースで OneLake 可用性 をオンにしました。 指定した OneLake パスでデータベースに追加されたすべての新しいデータに、Delta Lake 形式でアクセスできるようになりました。 Lakehouse やデータ ウェアハウスからの OneLake ショートカットを作成すること、Power BI Direct Lake モードを介して直接データにクエリを実行することも選択できます。
アダプティブ動作
イベントハウスは、受信データ ストリームを分析用に構造化された 1 つ以上の Parquet ファイルにインテリジェントにバッチ処理する堅牢なメカニズムを提供します。 データ ストリームのバッチ処理は、トリクリング データを処理する際に重要です。 多数の小さな Parquet ファイルをレイクに書き込むのは非効率的であり、コストが高くなり、パフォーマンスが低下する可能性があります。
Eventhouse のアダプティブ メカニズムは、最適な Parquet ファイルを作成するのに十分なデータがない場合、書き込み操作を遅らせることができます。 これにより、Parquet ファイルのサイズが最適になり、Delta Lake のベスト プラクティスに準拠します。 イベントハウス アダプティブ メカニズムにより、Parquet ファイルが分析用に準備され、迅速なデータ可用性の必要性とコストとパフォーマンスに関する考慮事項のバランスが保たれます。
Note
- 既定では、書き込み操作には最大 3 時間か、十分なサイズ (通常は 200 ~ 256 MB) のファイルが作成されるまでかかる場合があります。
- 5 分から 3 時間までの値に遅延を調整できます。
たとえば、次のコマンドを使用して、遅延を 5 分に設定します。
.alter-merge table <TableName> policy mirroring dataformat=parquet with (IsEnabled=true, TargetLatencyInMinutes=5);
注意
遅延を短い期間に調整すると、多数の小さなファイルを含む最適でないデルタ テーブルが発生する可能性があり、クエリのパフォーマンスが非効率的になる可能性があります。 OneLake の結果テーブルは読み取り専用であり、作成後に最適化することはできません。
.show table mirroring operations コマンドを使用してデータの待機時間を確認することで、新しいデータがレイクに追加された時間を監視できます。
結果は、前回データが追加された時点から測定されます。 待機時間が 00:00:00 になると、KQL データベース内のすべてのデータを OneLake で使用できます。
ファイルの表示
テーブルで OneLake 可用性をオンにすると、デルタ ログ フォルダーが作成され、対応する JSON ファイルや Parquet ファイルがあればそれらも作成されます。 リアルタイムインテリジェンス内に留まりながら、OneLake およびそのプロパティで利用可能になったファイルを表示できます。
ファイルを表示するには、[エクスプローラー] ペインのテーブルにカーソルを合わせ、[その他] メニュー [...]>[ファイルの表示] を選択します。
デルタ ログ フォルダーまたは個々のファイルのプロパティを表示するには、フォルダーまたはファイルをポイントし、[その他] メニュー [...]>[プロパティ] を選択します。
デルタ ログ フォルダー内のファイルを表示するには:
- [_delta_log] フォルダーを選択します。
- テーブルのメタデータとスキーマを表示するファイルを選択します。 開いたエディターは読み取り専用の形式です。
アクセス ミラーリング ポリシー
既定では、OneLake の可用性が有効である場合、ミラーリング ポリシー が有効になります。 このポリシーを使用して、データ待機時間を監視したり、デルタ テーブルをパーティション分割するように変更したりできます。
Note
OneLake の可用性をオフにすると、ミラーリング ポリシーの IsEnabled
プロパティは false (IsEnabled=false
) に設定されます。
デルタ テーブルのパーティション分割
デルタ テーブルをパーティション分割して、クエリ速度を向上させることができます。 OneLake ファイルをパーティション分割するタイミングについての詳細は、「テーブルをパーティション分割するタイミング」を参照してください。 各パーティションは、[パーティション] リストに表示されている PartitionName を使用して個別の列として表されます。 OneLake コピーには、ソース テーブルよりも多くの列があることを意味します。
差分テーブルをパーティション分割するには、.alter-merge table policy mirroring コマンドを使用します。
関連するコンテンツ
- OneLake でデータを公開するには、「OneLake 内にショートカットを作成する」を参照してください
- Lakehouse で OneLake ショートカットを作成するには、「Lakehouseのショートカットとは」を参照してください。
- KQL データベースまたはテーブルの OneLake から参照されるデータに対してクエリを実行するには、「KQL データベースで OneLake ショートカットを作成する」 を参照してください。