Lakehouse 和 Delta Lake 資料表
Microsoft Fabric Lakehouse 是一個資料架構平台,用於在單一位置儲存、管理和分析結構化和非結構化資料。 為了實現 Microsoft Fabric 中所有計算引擎的無縫資料存取,選擇 Delta Lake 作為統一的資料表格式。
使用載入至資料表之類的功能,在 Lakehouse 中儲存資料,或選項中所述的方法將資料儲存到 Fabric Lakehouse 中,所有資料都會以 Delta 格式儲存。
如需 Delta Lake 資料表格式的更全面簡介,請遵循後續步驟一節中的連結。
巨量資料、Apache Spark 和舊版資料表格式
Microsoft適用於 Apache Spark 的 Fabric 執行階段會使用與適用於 Apache Spark 的 Azure Synapse Analytics Runtime 相同的基礎,但包含可在 Microsoft Fabric 服務中的所有引擎提供更簡化的行為的主要差異。 在 Microsoft Fabric 中,預設會開啟主要效能功能。 進階 Apache Spark 使用者可以將設定還原為先前的值,以更符合特定案例。
Microsoft Fabric Lakehouse 和 Apache Spark 引擎都支援 Managed 和 Unmanaged 的所有資料表類型:這包括檢視和一般非 Delta Hive 資料表格式。 使用 PARQUET、CSV、AVRO、JSON 和任何 Apache Hive 相容檔格式定義的資料表會如預期般運作。
Lakehouse 總管使用者介面體驗會根據資料表類型而有所不同。 目前,Lakehouse 總管只會轉譯資料表物件。
Azure Synapse Analytics 的設定差異
下表包含 Azure Synapse Analytics 與適用於 Apache Spark 的 Microsoft Fabric 執行階段之間的組態差異。
Apache Spark 設定 | Microsoft Fabric 值 | Azure Synapse Analytics 值 | 備註 |
---|---|---|---|
spark.sql.sources.default | delta | parquet | 預設資料表格式 |
spark.sql.parquet.vorder.enabled | true | N/A | V 順序寫入器 |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | N/A | V 順序的字典頁面大小限制 |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | 最佳化寫入 |
自動探索資料表
Lakehouse 總管提供Microsoft Fabric Lakehouse 項目中對象的樹狀檢視。 其具有探索及顯示中繼資料存放庫和 OneLake 儲存體中所述之資料表的重要功能。 資料表參考會顯示在 Lakehouse 總管使用者介面的 區段底下 Tables
。 自動探索也適用於透過 OneLake 捷徑定義的資料表。
捷徑的資料表
Microsoft Fabric Lakehouse 支援透過 OneLake 捷徑定義的資料表,以提供最大的相容性和沒有資料移動。 下表包含每個項目類型在捷徑上使用時的最佳作法。
捷徑目的地 | 建立捷徑的位置 | 最佳做法 |
---|---|---|
Delta Lake 資料表 | Tables 區段 |
如果目的地中有多個資料表,請為每個資料表建立一個捷徑。 |
包含檔案的資料夾 | Files 區段 |
使用 Apache Spark 直接使用相對路徑來使用目的地。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。 |
舊版 Apache Hive 資料表 | Files 區段 |
使用 Apache Spark 直接使用相對路徑來使用目的地,或使用語法建立中繼資料目錄參考 CREATE EXTERNAL TABLE 。 將資料載入 Lakehouse 原生 Delta 資料表,以達到最大效能。 |
載入至資料表
Microsoft Fabric Lakehouse 提供方便且具生產力的使用者介面,以簡化將資料載入 Delta 資料表。 載入資料表 功能可讓視覺效果體驗將一般檔格式載入至 Delta,以提升所有角色的分析生產力。 若要深入瞭解詳細資料中的載入資料表功能,請參閱 Lakehouse Load to Tables 參考檔。
Delta Lake 資料表最佳化
將資料表維持在圖形中,以取得廣泛的分析案例範圍,並非次要的壯舉。 Microsoft Fabric Lakehouse 親主動啟用重要參數,以將與巨量資料表相關聯的常見問題降到最低,例如壓縮和小型檔案大小,以及最大化查詢效能。 不過,有許多情況下,這些參數需要變更。 Delta Lake 資料表最佳化和 V 順序 一文涵蓋一些重要案例,並提供有關如何有效率地維護 Delta 資料表以獲得最大效能的深入指南。