共用方式為


Lakehouse 和 Delta Lake 資料表

Microsoft Fabric Lakehouse 是一個資料架構平台,用於在單一位置儲存、管理和分析結構化和非結構化資料。 為了實現 Microsoft Fabric 中所有計算引擎的無縫資料存取,選擇 Delta Lake 作為統一的資料表格式。

在 Lakehouse 中使用如載入至資料表等功能,或參照將資料匯入 Fabric Lakehouse 的選項中描述的方法儲存資料,所有資料都會以 Delta 格式儲存。

如需 Delta Lake 資料表格式的更全面簡介,請遵循後續步驟一節中的連結。

巨量資料、Apache Spark 和舊版資料表格式

Microsoft Fabric Apache Spark 執行階段使用與 Azure Synapse Analytics 的 Apache Spark 執行階段相同的基礎,但包含可在 Microsoft Fabric 服務的所有引擎中提供更簡化一致行為的主要差異。 在 Microsoft Fabric 中,預設會開啟主要效能功能。 進階 Apache Spark 使用者可以將設定還原為先前的值,以更符合特定案例。

Microsoft Fabric Lakehouse 和 Apache Spark 引擎都支援受管理和非受管理的所有資料表類型:這包括視圖和一般非 Delta Hive 資料表格式。 使用 PARQUET、CSV、AVRO、JSON 和任何 Apache Hive 相容檔格式定義的資料表會如預期般運作。

Lakehouse 瀏覽器的使用者介面體驗會因資料表類型而有所不同。 目前,Lakehouse 瀏覽器只會顯示表格物件。

Azure Synapse Analytics 的設定差異

下表包含 Azure Synapse Analytics 與適用於 Apache Spark 的 Microsoft Fabric 執行階段之間的組態差異。

Apache Spark 設定 Microsoft Fabric 值 Azure Synapse Analytics 值 備註
spark.sql.sources.default 三角洲 拼花地板 預設資料表格式
spark.sql.parquet.vorder.default true N/A V 順序寫入器
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/A V 順序的字典頁面大小限制
spark.databricks.delta.optimizeWrite.enabled 確實 未設定 (false) 優化寫入

自動探索資料表

Lakehouse 瀏覽器提供 Microsoft Fabric Lakehouse 項目內的物件樹狀視圖。 其具有探索及顯示中繼資料存放庫和 OneLake 儲存體中所述之資料表的重要功能。 在 Lakehouse 總管使用者介面的 Tables 區段底下顯示資料表參考。 自動探索也適用於透過 OneLake 捷徑定義的資料表。

優先於捷徑的資料表

Microsoft Fabric Lakehouse 支援透過 OneLake 捷徑定義的資料表,以提供最大的相容性和沒有資料移動。 下表包含每個項目類型在特定場景中使用捷徑時的最佳實踐。

捷徑目的地 建立捷徑的位置 最佳做法
Delta Lake 資料表 Tables 區段 如果目的地中有多個資料表,請為每個資料表建立一個捷徑。
包含檔案的資料夾 Files 區段 使用 Apache Spark 透過相對路徑直接操作目的地。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。
舊版 Apache Hive 資料表 Files 區段 使用 Apache Spark 直接透過相對路徑存取目的地,或使用 CREATE EXTERNAL TABLE 語法建立中繼資料目錄參考。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。

載入至資料表

Microsoft Fabric Lakehouse 提供方便且具生產力的使用者介面,以簡化將資料載入 Delta 資料表。 載入至資料表功能可讓可視化體驗將常見檔案格式載入至 Delta,以提升所有用戶的分析生產力。 若要更詳盡瞭解 Load to Tables 特性,請參閱 Lakehouse Load to Tables 參考檔。

Delta Lake 資料表最佳化

將資料表維持良好狀態以適應廣泛的分析場景並不是一件簡單的事。 Microsoft Fabric Lakehouse 親主動啟用重要參數,以將與巨量資料表相關聯的常見問題降到最低,例如壓縮和小型檔案大小,以及最大化查詢效能。 不過,有許多情況下,這些參數需要變更。 Delta Lake 資料表的最佳化和 V 順序一文涵蓋了一些重要的使用情境,並深入指導如何有效地維護 Delta 資料表以達到最佳效能。