Lakehouse 和 Delta Lake 資料表
Microsoft Fabric Lakehouse 是一個資料架構平台,用於在單一位置儲存、管理和分析結構化和非結構化資料。 為了實現 Microsoft Fabric 中所有計算引擎的無縫資料存取,選擇 Delta Lake 作為統一的資料表格式。
在 Lakehouse 中使用如載入至資料表等功能,或參照將資料匯入 Fabric Lakehouse 的選項中描述的方法儲存資料,所有資料都會以 Delta 格式儲存。
如需 Delta Lake 資料表格式的更全面簡介,請遵循後續步驟一節中的連結。
巨量資料、Apache Spark 和舊版資料表格式
Microsoft Fabric Apache Spark 執行階段使用與 Azure Synapse Analytics 的 Apache Spark 執行階段相同的基礎,但包含可在 Microsoft Fabric 服務的所有引擎中提供更簡化一致行為的主要差異。 在 Microsoft Fabric 中,預設會開啟主要效能功能。 進階 Apache Spark 使用者可以將設定還原為先前的值,以更符合特定案例。
Microsoft Fabric Lakehouse 和 Apache Spark 引擎都支援受管理和非受管理的所有資料表類型:這包括視圖和一般非 Delta Hive 資料表格式。 使用 PARQUET、CSV、AVRO、JSON 和任何 Apache Hive 相容檔格式定義的資料表會如預期般運作。
Lakehouse 瀏覽器的使用者介面體驗會因資料表類型而有所不同。 目前,Lakehouse 瀏覽器只會顯示表格物件。
Azure Synapse Analytics 的設定差異
下表包含 Azure Synapse Analytics 與適用於 Apache Spark 的 Microsoft Fabric 執行階段之間的組態差異。
Apache Spark 設定 | Microsoft Fabric 值 | Azure Synapse Analytics 值 | 備註 |
---|---|---|---|
spark.sql.sources.default | 三角洲 | 拼花地板 | 預設資料表格式 |
spark.sql.parquet.vorder.default | true | N/A | V 順序寫入器 |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | N/A | V 順序的字典頁面大小限制 |
spark.databricks.delta.optimizeWrite.enabled | 確實 | 未設定 (false) | 優化寫入 |
自動探索資料表
Lakehouse 瀏覽器提供 Microsoft Fabric Lakehouse 項目內的物件樹狀視圖。 其具有探索及顯示中繼資料存放庫和 OneLake 儲存體中所述之資料表的重要功能。 在 Lakehouse 總管使用者介面的 Tables
區段底下顯示資料表參考。 自動探索也適用於透過 OneLake 捷徑定義的資料表。
優先於捷徑的資料表
Microsoft Fabric Lakehouse 支援透過 OneLake 捷徑定義的資料表,以提供最大的相容性和沒有資料移動。 下表包含每個項目類型在特定場景中使用捷徑時的最佳實踐。
捷徑目的地 | 建立捷徑的位置 | 最佳做法 |
---|---|---|
Delta Lake 資料表 |
Tables 區段 |
如果目的地中有多個資料表,請為每個資料表建立一個捷徑。 |
包含檔案的資料夾 |
Files 區段 |
使用 Apache Spark 透過相對路徑直接操作目的地。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。 |
舊版 Apache Hive 資料表 |
Files 區段 |
使用 Apache Spark 直接透過相對路徑存取目的地,或使用 CREATE EXTERNAL TABLE 語法建立中繼資料目錄參考。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。 |
載入至資料表
Microsoft Fabric Lakehouse 提供方便且具生產力的使用者介面,以簡化將資料載入 Delta 資料表。 載入至資料表功能可讓可視化體驗將常見檔案格式載入至 Delta,以提升所有用戶的分析生產力。 若要更詳盡瞭解 Load to Tables 特性,請參閱 Lakehouse Load to Tables 參考檔。
Delta Lake 資料表最佳化
將資料表維持良好狀態以適應廣泛的分析場景並不是一件簡單的事。 Microsoft Fabric Lakehouse 親主動啟用重要參數,以將與巨量資料表相關聯的常見問題降到最低,例如壓縮和小型檔案大小,以及最大化查詢效能。 不過,有許多情況下,這些參數需要變更。 Delta Lake 資料表的最佳化和 V 順序一文涵蓋了一些重要的使用情境,並深入指導如何有效地維護 Delta 資料表以達到最佳效能。