什麼是資料整頓?
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用 (部分機器翻譯)!
資料整頓牽涉到從原始來源轉換和重新格式化資料,使其更適合且適用於各種下游應用程式。
為提供精確分析每天持續成長的複雜資料,組織必須有探索重要商務資料的資料準備和整頓能力。 需要資料準備,才可讓組織在各種商務程序中使用資料,並縮短價值創造時間。
Data Factory 可讓您使用 Power Query 以雲端規模反覆執行無程式碼的資料準備。 Data Factory 與 Power Query Online 整合,並提供 Power Query M 函式作為管線活動。
Data Factory 將 Power Query Online 混搭編輯器所產生的 M 轉譯為 Spark 程式碼,以利於將 M 轉譯為 Azure Data Factory 資料流程,方便雲端規模執行。 對於資料工程師或「公民資料整合者」,使用 Power Query 和資料流程來整頓資料特別有用。
使用案例
快速互動式資料探索和準備
多個資料工程師和公民資料整合者可以在雲端規模下交互探索和準備的資料集。 隨著 Data Lake 中的資料數量、多樣性和速度增加,使用者需要有效方法來探索和準備資料集。 例如,您可能需要建立「具有自 2017 年以來新客戶的所有客戶人口統計資料」的資料集。 而不會對應至已知的目標。 您正在探索、整頓和準備資料集,以符合發佈至資料湖之前的需求。 整頓通常用於較不正式的分析情節。 預先準備的資料集可用於進行下游的轉換和機器學習作業。
無程式碼的敏捷式資料準備
公民資料整合者花費 60% 以上的時間來尋找和準備資料。 他們想要以無程式碼的方式這樣做,以提升作業生產力。 讓公民資料整合者使用 Power Query Online 等已知工具,以可調整的方式來擴充、塑造及發佈資料,可大幅提升其生產力。 Azure Data Factory 中的整頓支援熟悉的 Power Query Online 混搭編輯器,可讓公民資料整合者快速修正錯誤、將資料標準化,以及產生高品質的資料來支援商務決策。
資料驗證和探索
以無程式碼的方式從視覺上掃描資料,以移除任何極端值、異常並符合形態,以利於快速分析。
支援的來源
連接器 | 資料格式 | 驗證類型 |
---|---|---|
Azure Blob 儲存體 | CSV、Parquet、Excel | 帳戶金鑰、服務主體、MSI |
Azure Data Lake Storage Gen1 | CSV、Parquet、Excel | 服務主體、MSI |
Azure Data Lake Storage Gen2 \(部分機器翻譯\) | CSV、Parquet、Excel | 帳戶金鑰、服務主體、MSI |
Azure SQL Database | - | SQL 驗證、MSI、服務主體 |
Azure Synapse Analytics | - | SQL 驗證、MSI、服務主體 |
混搭編輯器
建立 Power Query 活動時,所有來源資料集會變成資料集查詢,並放在 ADFResource 資料夾中。 UserQuery 預設指向第一個資料集查詢。 所有轉換都應該在 UserQuery 上完成,因為不支援也不保存對資料集查詢所做的變更。 目前不支援重新命名、新增和刪除查詢。
目前,儘管資料整頓在撰寫期間可供使使用,並非所有 Power Query M 函式都支援。 建立 Power Query 活動時,如果不支援函式,您會看到下列錯誤訊息:
The Power Query Spark Runtime does not support the function
關於支援的轉換,如需詳細資訊,請參閱 Power Query 資料整頓函式。