探索 Microsoft Fabric Lakehouse

已完成

Lakehouse 會以資料庫的形式呈現,並且使用 Delta 格式資料表建置在資料湖上端。 Lakehouses 結合了關聯式資料倉儲的 SQL 式分析功能,以及資料湖的彈性和可擴縮性。 Lakehouses 可儲存所有資料格式,並可搭配各種分析工具和程式設計語言使用。 作為雲端式解決方案,Lakehouses 可自動調整規模,並提供高可用性和災害復原。

Lakehouses 圖表,顯示資料湖的資料夾結構,已及資料倉儲的關聯式功能。

Lakehouse 的一些優點包括:

  • Lakehouses 使用 Spark 和 SQL 引擎來處理大規模的資料,並支援機器學習或預測模型分析。
  • Lakehouse 資料是以讀取結構格式所組織,這表示您可視需要定義結構,而不是具有預先定義的結構。
  • Lakehouses 透過 Delta Lake 格式化資料表支援 ACID (原子性、一致性、隔離、持久性) 交易,以達成資料一致性和完整性。
  • Lakehouse 為單一位置,可供資料工程師、資料科學家和資料分析師存取和使用資料。

如果您想要可調整的分析解決方案來維護資料一致性,Lakehouse 是絕佳的選擇。 請務必評估您的特定需求,以判斷哪一個解決方案最適合。

將資料載入 Lakehouse

Fabric 湖存放庫是分析解決方案的核心元素。 您可以遵循 ETL (擷取、轉換和載入) 程序來內嵌和轉換資料,然後載入湖存放庫。

您可以從各種來源內嵌許多常見格式的資料,包括本機檔案、資料庫或 API。 您也可以建立外部來源資料的 Fabric 捷徑,例如 Azure Data Lake Store Gen2 或 OneLake。 湖存放庫總管可讓您瀏覽檔案、資料夾、捷徑和資料表;並在 Fabric 平台中檢視其內容。

內嵌的資料可以進行轉換,然後使用 Apache Spark 搭配筆記本或 Dataflows Gen2 來載入。 使用 Data Factory 管線來協調不同的 ETL 活動,並將備妥的資料登陸至湖存放庫。

注意

Dataflows Gen2 以 Power Query 為基礎,是使用 Excel 或 Power BI 的資料分析師熟悉的工具,可提供轉換的視覺標記法,作為傳統程式設計的替代方案。

基於許多原因,您可以使用湖存放庫,包括:

  • 使用 SQL 進行分析。
  • 定型機器學習模型。
  • 對即時資料執行分析。
  • 在 Power BI 中擬定報表。

保護湖存放庫

湖存放庫存取會透過工作區或項目層級共用來管理。 工作區角色應該用於共同作業者,因為這些角色會授與對工作區內所有項目的存取權。 專案層級共用最適合用於授與唯讀需求的存取權,例如分析或 Power BI 報表擬定。

Fabric 湖存放庫也支援資料控管功能,包括敏感度標籤,且可以使用 Microsoft Purview 搭配您的 Fabric 租用戶進行擴充。

注意

如需詳細資訊,請參閱 Microsoft Fabric 中的安全性文件。