Microsoft synapse 無伺服器和數據倉儲的數據品質
Azure Synapse 分析是一項企業分析服務,可加速跨數據倉儲和巨量數據系統的深入解析時間。 它結合了企業數據倉儲中使用的最佳 SQL 技術、適用於巨量數據的 Apache Spark 技術,以及用於記錄和時間序列分析的 Azure Data Explorer。
Azure Synapse 是一項無限制的分析服務,可將企業數據倉儲和巨量數據分析結合在一起。 它可讓您自由地使用無伺服器或專用資源依您的條款查詢數據—大規模地,如需 Azure Synapse 檢閱 Fabric 檔案的詳細資訊。
synapse 工作區的範例,其中包含專用 Synapse Data Warehouse (DWH) Table EMPLOYEE 的實例,以及具有 SynapseSalesDelta 數據表的無伺服器資料庫 (SQL_ON_DEMAND) 。
掃描之後,Microsoft Purview 中就會提供資產。 以下是 Synapse Analytics Dedicated 實例上的 Employee 數據表範例。
Azure Synapse 分析專用 (Data Warehouse)
設定數據對應掃描
若要掃描 Azure Synapse Analytics 專用 (Data Warehouse) 請遵循檔:以及若要授與專用 DWH 實例的必要 MI 許可權,請遵循檔。
掃描之後,Microsoft Purview 目錄上就會提供資產。 以下是 Synapse Analytics Dedicated 實例上的 Employee 數據表範例。
設定與 synapse 專用數據倉儲的連線
此時,我們已備妥掃描的資產以進行編目和治理。 將掃描的資產關聯至治理網域 Sele 中的數據產品。 在 [數據品質] 索引標籤上,新增 Azure SQL 資料庫連線:手動輸入資料庫名稱。
選取 [數據品質 > 控管網域 > 管理] 索引標籤以建立連線。
在線上頁面中設定連線。
- 新增連線名稱和描述。
- 選取 [分析] Azure Synapse 來源類型。
- 選 取 [Azure 訂用帳戶]。
- 選取 [工作區名稱]。
- 選取 [專用 SQL 端點]。
- 選取 [無伺服器 SQL 端點]。
- 選 取 [端點類型]。
- 選取 [資料庫]。
- 將 MSI 新增為認證。
測試連線。 設定數據源連線並成功測試之後,您可以繼續設定及執行數據分析和數據質量掃描。
如果您的 Synapse 數據源位於私人端點後方,您必須啟用受控 vNet。 請遵循 如何設定受控 vNet 的檔。
重要事項
數據質量負責人需要只讀存取 synapse 專用數據倉儲,以設定數據質量連線。 針對受控 vNet 設定,您將無法測試連線。
Synapse 專用數據倉儲中數據的分析和數據質量掃描
成功完成連線設定之後,您可以分析、建立和套用規則,以及在 synapse 倉儲中執行數據的 DQ 掃描。 請遵循下列檔中所述的逐步指導方針:
重要事項
- 查詢的效能,甚至其成功執行都取決於客戶針對其專用資料庫實例所具備的 DW 組態。
- 個別的 DQ 評定作業或任何其他 DQ 作業都會在專用 DW 上引發連線,如果實例在並行限制下布建或失敗,客戶必須留意 DW 設定,可能會失敗。 其並行對於任何實例的時間都有非常硬的限制。
- 並行限制可能會導致作業終止。 DW 限制 (這類 1000 DW) 提供執行查詢的功能。
- vNet 支援目前為預覽狀態,並提供 GA 等級支援。
Azure Synapse Analytics 無伺服器
設定數據對應掃描
若要掃描 Azure Synapse Analytics 無伺服器],請遵循下列檔:若要在專用 DWH 實例上授與必要的 MI 許可權,請遵循檔。 掃描之後,Microsoft Purview 目錄上就會提供無伺服器資產。
設定與 synapse 無伺服器的連線
此時,我們已備妥掃描的資產以進行編目和治理。 將掃描的資產關聯至治理網域 Sele 中的數據產品。 在 [資料品質] 中,新增 Azure SQL 資料庫連接:手動輸入資料庫名稱。
選 取 [數據品質>控管網域>管理] 索引標籤以建立連線。
在線上頁面中設定連線。
- 新增連線名稱和描述。
- 選取 [分析] Azure Synapse 來源類型。
- 選 取 [Azure 訂用帳戶]。
- 選取 [工作區名稱]。
- 選取 [專用 SQL 端點]。
- 選取 [無伺服器 SQL 端點]。
- 選 取 [端點類型]。
- 選取 [資料庫]。
- 將 MSI 新增為認證。
測試連線。 設定數據源連線並成功測試之後,您可以繼續設定及執行數據分析和數據質量掃描。
如果您的 Synapse 數據源位於私人端點後方,您必須啟用受控 vNet。 請遵循 如何設定受控 vNet 的檔。
重要事項
- 數據質量負責人需要只讀存取 synapse 專用數據倉儲,以設定數據質量連線。
- 在 Synapse 無伺服器設定中,外部數據表會指向儲存在 ADLS Gen2 中的 Delta 格式數據。
- vNet 支援處於閘道預覽狀態。 請連絡 Purview 銷售小組,以允許將您的租使用者列入閘道預覽。
- Synapse 連接器只會偵測並支援 sql.azuresynapse.net。 如果 Data Mmap 掃描所產生的完整名稱 (FQN) 包含 database.windows.net,則 DQ 掃描的 Synapse 連線將會失敗。
分析和數據品質 (DQ) 掃描 synapse 無伺服器中的數據
成功完成連線設定之後,您可以分析、建立和套用規則,以及執行數據品質 (DQ) 掃描 synapse 倉儲中的數據。 請遵循下列檔中所述的逐步指導方針:
重要事項
- DQ 評估會在背景的 Spark 上執行分析,客戶會有多個連線,其中每個 Spark 節點都會有連線 SPID,因此如果使用/排程超過 DW 限制,DWH 可能會遇到目前的查詢限制,而導致失敗。 但針對 Azure Synapse 無伺服器 SQL 資料表 - 不適用這類並行限制;這完全取決於客戶在其 ADLS Gen2 實例上擁有的無伺服器差異 Parquet 優化。 您可以將引擎視為與 Databricks 無伺服器 DW 緊密對應,這兩者都會在外部 Lakehouse 來源上運作,例如 DELTA 格式數據表。