共用方式為


相得益彰︰資料湖和倉儲

適用於:✅ Microsoft Fabric 中的 SQL 分析端點和倉儲

本文說明 Lakehouse SQL 分析端點的資料倉儲工作負載,以及用於資料倉儲中 Lakehouse 的案例。 如需選擇開發倉儲資料的決策指南,請參閱 Microsoft Fabric 決策指南︰在 Warehouse 與 Lakehouse 之間選擇

什麼是 Lakehouse 的 SQL 分析端點?

在 Fabric 中,當您建立 Lakehouse 時,系統會自動建立倉儲

SQL 分析端點可讓您使用 T-SQL 語言和 TDS 通訊協定,查詢 Lakehouse 中的資料。 每個 Lakehouse 都有一個 SQL 分析端點,而且每個工作區可以有多個 Lakehouse。 工作區中的 SQL 分析端點數目與 Lakehouse 項目的數目相符。

  • 每個 Lakehouse 會自動產生 SQL 分析端點,並將 Lakehouse 中的 Delta 資料表公開為可使用 T-SQL 語言查詢的 SQL 資料表。
  • Lakehouse 的每個 Delta 資料表會以一個資料表呈現。 資料應為 Delta 格式。
  • 系統會為每個 SQL 分析端點建立預設 Power BI 語意模型,並遵循 Lakehouse 物件的命名慣例。

無需在 Microsoft Fabric 中建立 SQL 分析端點。 Microsoft Fabric 使用者無法在工作區中建立 SQL 分析端點。 系統會自動為每個 Lakehouse 建立 SQL 分析端點。 若要取得 SQL 分析端點,請建立 Lakehouse,而且系統會自動為 Lakehouse 建立 SQL 分析端點。

注意

在幕後,SQL 分析端點會使用與倉儲相同的引擎,來提供高效能、低延遲的 SQL 查詢。

自動探索中繼資料

無縫的程序會從檔案資料夾中讀取 Delta 記錄,並確保資料表的 SQL 中繼資料 (例如統計資料) 一律為最新狀態。 無需使用者動作,也不需要匯入、複製資料或設定基礎結構。 如需詳細資訊,請參閱 SQL 分析端點中的自動產生結構描述

Lakehouse 為資料倉儲啟用的案例

在 Fabric 中,我們提供一個倉儲。

Lakehouse 及其 SQL 分析端點由 Warehouse 提供技術支援,可簡化批次、串流或 Lambda 架構模式的傳統決策樹。 Lakehouse 與倉儲協同運作,可啟用許多額外分析案例。 本節將探討如何使用 Lakehouse 與 Warehouse 的協同運作,獲得最佳品種分析策略。

使用 Fabric Lakehouse 的金層進行分析

資料湖資料組織其中一項已知策略是獎牌架構,檔案以原始 (銅)、合併 (銀) 和最佳化 (金) 層進行整理。 如果檔案以 Delta Lake 格式儲存,則 SQL 分析端點可用於分析獎牌架構金層中的資料,即使檔案儲存在 Microsoft Fabric OneLake 之外亦是如此。

您可以使用 OneLake 捷徑,來參考 Synapse Spark 或 Azure Databricks 引擎管理的外部 Azure Data Lake 儲存帳戶中的金資料夾。

還可依主題領域或特定主題領域的網域導向解決方案來新增倉儲,這些主題領域可以有定製分析需求。

如果您選擇將資料保留在 Fabric 中,其一律會透過 API、Delta 格式,以及 T-SQL 來開啟和存取。

透過 Lakehouse 的差異資料表和其他來自 OneLake 的專案,查詢即服務

在某些使用案例中,分析師、資料科學家或資料工程師可能需要查詢資料湖中的資料。 在 Fabric 中,此端對端體驗完全 SaaS 化。

OneLake 是整個組織的單一、統一的邏輯資料湖。 OneLake 是適用於資料的 OneDrive。 OneLake 可包含多個工作區,例如,涉及組織各部門。 Fabric 中的每個項目都可透過 OneLake 存取資料。

Microsoft Fabric Lakehouse 中的資料按下列資料夾結構,以實體方式儲存在 OneLake 中:

  • /Files 資料夾包含原始且未合併的檔案,這些檔案應由資料工程師進行處理後再進行分析。 這些檔案可能採用各種格式,例如 CSV、Parquet、不同類型的影像等。
  • /Tables 資料夾包含最佳化與合併的資料,可隨時供商務分析使用。 合併的資料為 Delta Lake 格式。

SQL 分析端點可讀取 OneLake 內 /tables 資料夾中的資料。 分析就像查詢 Lakehouse 的 SQL 分析端點一樣簡單。 與倉儲一起,您也會取得跨資料庫查詢,以及順暢地從只讀查詢切換至使用網狀架構數據倉儲在 OneLake 數據之上建置其他商業規則的能力。

使用 Spark 進行資料工程,並使用 SQL 提供服務

資料驅動型企業需要讓後端和分析系統與面向客戶的應用程式,進行近乎即時的同步處理。 交易的影響必須透過端對端程式、相關應用程式和線上交易處理 (OLTP) 系統正確反映。

在 Fabric 中,您可以使用 Spark 串流或資料工程師來策展您的資料。 您可以使用 Lakehouse SQL 分析端點來驗證資料品質,以及用於現有的 T-SQL 程序。 這可在獎牌架構或多層 Lakehouse 內完成,提供銅、銀、金層資料,或者檢閱及測試、策展和最佳化的資料。 您可以自訂透過 Spark 建立的資料夾和資料表,以滿足您的資料工程和商務需求。 就緒後,無需複製資料,即可利用倉儲來提供所有下游商業智慧應用程式和其他分析使用案例,並使用 CREATE TABLE AS SELECT (CTAS)、預存程序和其他 DML/DDL 命令來最佳化資料。

與您的 Open Lakehouse 金層整合

SQL 分析端點適用範圍不僅限於 Fabric Lakehouse 中的資料分析。 SQL 分析端點可讓您使用 Synapse Spark、Azure Databricks 或任何其他以資料湖為中心的資料工程引擎,分析任何 Lakehouse 中的資料湖資料。 資料可儲存在 Azure Data Lake Storage 或 Amazon S3 中。

這種與 Fabric Lakehouse 的緊密、雙向整合,一律可透過任何具有開放式 API、Delta 格式,以及 T-SQL 的引擎來存取。

使用捷徑對外部資料湖實作資料虛擬化

您可以使用捷徑,來參考 Synapse Spark 或 Azure Databricks 引擎管理的外部 Azure Data Lake 儲存帳戶中的金資料夾。

您可透過 SQL 分析端點,來分析使用捷徑參考的任何資料夾,並針對參考的資料建立 SQL 資料表。 SQL 資料表可用於公開外部受管資料湖中的資料,並對其啟用分析。

此捷徑可做為虛擬倉儲,能夠透過倉儲加以利用,以了解額外的下游分析需求,或直接查詢。

使用下列步驟來分析外部資料湖儲存帳戶中的資料:

  1. 建立參考 Azure Data Lake StorageAmazon S3 帳戶中資料夾的捷徑。 輸入連線詳細資料和認證之後,Lakehouse 中會顯示捷徑。
  2. 切換至 Lakehouse 的 SQL 分析端點,並尋找名稱與捷徑名稱相符的 SQL 資料表。 此 SQL 資料表會參考 ADLS/S3 資料夾中的資料夾。
  3. 查詢參考 ADLS/S3 中資料的 SQL 資料表。 資料表可用做 SQL 分析端點中的其他任何資料表。 您可以聯結參考不同儲存帳戶中資料的資料表。

注意

如果 SQL 資料表未立即顯示在 SQL 分析端點中,您可能需要等候幾分鐘。 參考外部儲存體帳戶資料的 SQL 資料表會延遲建立。

分析資料湖中的封存或歷程記錄資料

資料分割是 Data Lake 中已知的資料存取最佳化技術。 分割資料集會儲存在階層式資料夾結構中,格式為 /year=<year>/month=<month>/day=<day>,其中 yearmonthday 是分割資料欄。 這可讓您儲存邏輯分隔的歷程記錄資料,採用的格式允許計算引擎視需要使用高效能篩選來讀取資料,而不是讀取整個目錄和其中包含的所有資料夾和檔案。

如果查詢正在篩選可比較述詞資料欄與值的述詞,則分割的資料可加速存取。

SQL 分析端點可輕鬆地讀取這種類型的資料,無需任何設定。 例如,您可以使用任何應用程式將資料封存到資料湖,包括 SQL Server 2022 或 Azure SQL 受控執行個體。 將資料分割並放置到資料湖中以便與外部資料表一起封存之後,SQL 分析端點可將分割的 Delta Lake 資料表讀取為 SQL 資料表,並允許組織對其進行分析。 這樣可降低擁有權總成本、減少資料重複,以及顯示巨量資料、AI、其他分析案例。

使用捷徑對 Fabric 資料實作資料虛擬化

在 Fabric 中,工作區可讓您根據複雜的商務、地理或法規需求來隔離資料。

SQL 分析端點可讓您讓設置資料,並且仍可透過無縫虛擬化,甚至在其他 Microsoft Fabric 工作區分析倉儲或 Lakehouse 中的資料。 每個 Microsoft Fabric Lakehouse 都會將資料儲存在 OneLake 中。

捷徑可讓您參考任何 OneLake 位置中的資料夾。

每個 Microsoft Fabric Warehouse 會將資料表資料儲存在 OneLake 中。 如果資料表為僅附加,則資料表資料會公開為 OneLake 中的 Delta Lake 資料。 捷徑可讓您參考任何 OneLake 中公開 Warehouse 資料表的資料夾。

跨工作區共用與查詢

雖然工作區可讓您根據複雜的商務、地理或法規需求來隔離資料,但有時您需要針對特定分析需求來加速跨這些領域進行共用。

Lakehouse SQL 分析端點可讓您輕鬆地在部門與使用者之間共用資料,使用者可使用自己的容量和倉儲。 工作區可組織部門、營業單位或分析網域。 使用捷徑,使用者可找到任何 Warehouse 或 Lakehouse 的資料。 使用者可透過相同的共用資料,立即執行自己的自訂分析。 除了協助部門退款和用量配置之外,這也是資料的零複製版本。

SQL 分析端點可讓您查詢任何資料表並輕鬆共用。 新增的工作區角色和安全性角色控制,可進一步分層以滿足其他商務需求。

使用下列步驟來啟用跨工作區資料分析:

  1. 建立 OneLake 捷徑,以參考您可存取的工作區中的資料表或資料夾。
  2. 選擇包含您想要分析的資料表或 Delta Lake 資料夾的 Lakehouse 或 Warehouse。 選取資料表/資料夾之後,Lakehouse 中會顯示捷徑。
  3. 切換至 Lakehouse 的 SQL 分析端點,並尋找名稱與捷徑名稱相符的 SQL 資料表。 此 SQL 資料表會參考另一個工作區中的資料夾。
  4. 查詢參考另一個工作區中資料的 SQL 資料表。 資料表可用做 SQL 分析端點中的其他任何資料表。 您可以聯結參考不同工作區中資料的資料表。

注意

如果 SQL 資料表未立即顯示在 SQL 分析端點中,您可能需要等候幾分鐘。 參考另一個工作區中資料的 SQL 資料表會延遲建立。

分析分割資料

資料分割是 Data Lake 中已知的資料存取最佳化技術。 分割資料集會儲存在階層式資料夾結構中,格式為 /year=<year>/month=<month>/day=<day>,其中 yearmonthday 是分割資料欄。 如果查詢正在使用述詞篩選資料,述詞會藉由比較述詞資料欄與值來篩選資料,則分割的資料集可加速資料存取。

SQL 分析端點可將分割的 Delta Lake 資料集呈現為 SQL 資料表,並可讓您對其進行分析。