在 Azure Data Factory 和 Azure Synapse Analytics 中轉換資料
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
重要
對於 Azure Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您就無法建立新的 Machine Learning 工作室 (傳統) 資源 (工作區與 Web 服務方案)。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 實驗與 Web 服務。 如需詳細資訊,請參閱
Machine Learning 工作室 (傳統) 文件即將淘汰,未來將不再更新。
概觀
本文說明 Azure Data Factory 和 Synapse 管線中的資料轉換活動,您可用來大規模轉換未經處理資料,並將其處理為預測和深入解析。 轉換活動會在計算環境中執行,例如 Azure Databricks 或 Azure HDInsight。 它會提供每個轉換活動的詳細資訊文章連結。
此服務支援下列資料轉換活動,其可個別或與其他活動鏈結而新增至管線。
使用資料流程在 Azure Data Factory 和 Azure Synapse Analytics 中以原生方式轉換
對應資料流程
對應資料流是 Azure Data Factory 和 Azure Synapse 中以視覺化方式設計的資料轉換作業。 資料流程可讓工程師開發圖形化的資料轉換邏輯,而無須撰寫程式碼。 產生的資料流程會以管線內的活動形式來執行,並使用擴增 Spark 叢集。 資料流程活動可以透過服務內現有的排程、控制、流程和監視功能來運作。 如需詳細資訊,請參閱對應資料流。
資料整頓
Azure Data Factory 中的 Power Query 可啟用雲端規模資料整頓,讓您反覆進行無程式碼的雲端規模資料準備。 資料整頓與 Power Query Online 整合,可讓您使用 Power Query M 函式透過 Spark 執行來進行雲端規模的資料整頓。 如需詳細資訊,請參閱 Azure Data Factory 中的資料整頓。
注意
Power Query 目前僅支援 Azure Data Factory,而不支援 Azure Synapse。 如需每個服務所支援的特定功能清單,請參閱 Azure Data Factory 和 Azure Synapse Analytics 管線中的可用功能。
外部轉換
您可以選擇手動撰寫轉換程式碼,以及自行管理外部計算環境。
HDInsight Hive 活動
管線中的 HDInsight Hive 活動會在您自己或隨選的 Windows/Linux 架構 HDInsight 叢集上執行 Hive 查詢。 如需此活動的詳細資料,請參閱 Hive 活動一文。
HDInsight Pig 活動
管線中的 HDInsight Pig 活動會在您自己或隨選的 Windows/Linux 架構 HDInsight 叢集上執行 Pig 查詢。 如需此活動的詳細資訊,請參閱 Pig 活動文章。
HDInsight MapReduce 活動
管線中的 HDInsight MapReduce 活動會在您自己或隨選的 Windows/Linux 架構 HDInsight 叢集上執行 MapReduce 程式。 如需此活動的詳細資料,請參閱 MapReduce 活動一文。
HDInsight 串流活動
管線中的 HDInsight 串流活動會在您自己或隨選的 Windows/Linux 架構 HDInsight 叢集上執行 Hadoop 串流程式。 如需此活動的詳細資訊,請參閱 HDInsight 串流活動 。
HdInsight Spark 活動
管線中的 HDInsight Spark 活動會在您自己的 HDInsight 叢集上執行 Spark 程式。 如需詳細資料,請參閱使用 Azure Data Factory 或 Azure Synapse Analytics 叫用 Spark 程式。
ML 工作室 (傳統版) 活動
重要
對於 Azure Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您就無法建立新的 Machine Learning 工作室 (傳統) 資源 (工作區與 Web 服務方案)。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 實驗與 Web 服務。 如需詳細資訊,請參閱
Machine Learning 工作室 (傳統) 文件即將淘汰,未來將不再更新。
此服務可讓您輕鬆地建立管線,使用已發佈的 ML 工作室 Web 服務進行預測性分析。 在管線中使用批次執行活動時,您可以叫用工作室 (傳統版) Web 服務以對批次中的資料進行預測。
經過一段時間,您必須使用新的輸入資料集,重新訓練 Azure 工作室 (傳統版) 評分實驗中的預測模型。 完成重新訓練之後,您即可使用已重新訓練的機器學習模型來更新評分 Web 服務。 您可以使用更新資源活動,以新訓練的模型來更新 Web 服務。
如需這些工作室 (傳統版) 活動的詳細資料,請參閱使用 ML 工作室 (傳統版) 活動。
預存程序活動
您可以在 Data Factory 管線中使用 SQL Server 的預存程序活動,以叫用下列其中一個資料存放區中的預存程序:您的企業或 Azure VM 中的 Azure SQL Database、Azure Synapse Analytics、SQL Server 資料庫。 如需詳細資料,請參閱預存程序活動一文。
Data Lake Analytics U-SQL 活動
Data Lake Analytics U-SQL 活動會在 Azure Data Lake Analytics 叢集上執行 U-SQL 指令碼。 如需詳細資料,請參閱 Data Analytics U-SQL 活動一文。
Azure Synapse Notebook 活動
Synapse 管線中的 Azure Synapse Notebook 活動會在 Azure Synapse 工作區中執行 Synapse 筆記本。 請參閱執行 Azure Synapse 筆記本來轉換資料。
Databricks Notebook 活動
管線中的 Azure Databricks Notebook 活動會在 Azure Databricks 工作區中執行 Databricks 筆記本。 Azure Databricks 是用於執行 Apache Spark 的受控平台。 請參閱執行 Databricks Notebook 來轉換資料。
Databricks Jar 活動
管線中的 Azure Databricks Jar 活動會在 Azure Databricks 叢集中執行 Spark Jar。 Azure Databricks 是用於執行 Apache Spark 的受控平台。 請參閱執行 Databricks Notebook 來轉換資料。
Databricks Python 活動
管線中的 Azure Databricks Python 活動會在 Azure Databricks 叢集中執行 Python 檔案。 Azure Databricks 是用於執行 Apache Spark 的受控平台。 請參閱在 Azure Databricks 中執行 Python 活動來轉換資料。
自訂活動
如果您需要以 Data Factory 不支援的方法轉換資料,可以利用自己的資料處理邏輯建立自訂活動,然後在管線中使用活動。 您可以將自訂 .NET 活動設定為使用 Azure Batch 服務或 Azure HDInsight 叢集來執行。 如需詳細資訊請參閱 使用自訂活動 。
您可以建立自訂活動,以便在已安裝 R 的 HDInsight 叢集上執行 R 指令碼。 請參閱使用 Azure Data Factory 和 Synapse 管線來執行 R 指令碼。
計算環境
您需要為計算環境建立連結服務,然後在定義轉換活動時使用該連結服務。 支援兩種類型的計算環境。
- 隨選:在此情況下,運算環境完全由服務管理。 服務會在工作提交前自動建立運算環境以處理資料,而在工作完成時予以移除。 您可以針對工作執行、叢集管理及啟動載入動作,設定和控制隨選計算環境的細微設定。
- 採用您自己的環境:在此情況下,您可以註冊自己的運算環境 (例如 HDInsight 叢集) 作為連結服務。 此運算環境是由您管理,而服務會使用該環境來執行活動。
如需了解支援的計算服務,請參閱計算連結服務一文。
相關內容
如需使用轉換活動的範例,請參閱下列教學課程:教學課程:使用 Spark 轉換資料