你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
在 Azure 数据工厂和 Azure Synapse Analytics 中转换数据
适用于: Azure 数据工厂 Azure Synapse Analytics
提示
试用 Microsoft Fabric 中的数据工厂,这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用!
重要
对 Azure 机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
自 2021 年 12 月 1 日起,无法创建新的机器学习工作室(经典)资源(工作区和 Web 服务计划)。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)试验和 Web 服务。 有关详细信息,请参阅:
机器学习工作室(经典版)文档即将停用,未来可能不再更新。
概述
本文介绍了 Azure 数据工厂和 Synapse 管道中的数据转换活动,你可以利用这些活动将原始数据转换及处理为预测和见解。 转换活动在计算环境(例如 Azure Databricks 或 Azure HDInsight)中执行。 其提供了相关文章链接,内附各转换活动的详细信息。
该服务支持以下数据转换活动,这些活动可单独添加到管道,还可与其他活动关联在一起。
使用数据流在 Azure 数据工厂和 Azure Synapse Analytics 中进行本机转换
映射数据流
映射数据流指 Azure 数据工厂和 Azure Synapse 中以可视方式设计的数据转换。 使用数据流,数据工程师可以开发图形化数据转换逻辑,无需编写代码。 生成的数据流将作为使用横向扩展 Spark 群集的管道中的活动执行。 可以通过服务内现有的计划、控制、流和监视功能,来执行数据流活动。 有关详细信息,请参阅映射数据流。
数据整理
Azure 数据工厂中的 Power Query 支持云规模数据整理,使你能够以迭代方式进行云规模的无代码数据准备。 数据整理与 Power Query Online 集成,并通过执行 spark,使 Power Query M 函数可用于云规模数据整理。 有关详细信息,请参阅 Azure 数据工厂中的数据整理。
注意
目前仅支持 Azure 数据工厂中的 Power Query,但不支持 Azure Synapse 中的 Power Query。 有关每项服务中支持的特定功能列表,请参阅 Azure 数据工厂和 Azure Synapse Analytics 管道中的可用功能。
外部转换
(可选)可以手动编写代码转换并自行管理外部计算环境。
HDInsight Hive 活动
管道中的 HDInsight Hive 活动会在自己的或基于 Windows/Linux 的按需 HDInsight 群集上执行 Hive 查询。 有关此活动的详细信息,请参阅 Hive 活动一文。
HDInsight Pig 活动
管道中的 HDInsight Pig 活动会在自己的或基于 Windows/Linux 的按需 HDInsight 群集上执行 Pig 查询。 有关此活动的详细信息,请参阅 Pig 活动一文。
HDInsight MapReduce 活动
管道中的 HDInsight MapReduce 活动会在自己或基于 Windows/Linux 的按需 HDInsight 群集上执行 MapReduce 程序。 有关此活动的详细信息,请参阅 MapReduce 活动一文。
HDInsight Streaming 活动
管道中的 HDInsight 流式处理活动会在自己的或基于 Windows/Linux 的按需 HDInsight 群集上执行 Hadoop 流式处理程序。 有关此活动的详细信息,请参阅 HDInsight Streaming 活动。
HDInsight Spark 活动
管道中的 HDInsight Spark 活动在自己的 HDInsight 群集上执行 Spark 程序。 有关详细信息,请参阅通过 Azure 数据工厂或 Azure Synapse Analytics 调用 Spark 程序。
ML 工作室(经典版)活动
重要
对 Azure 机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
自 2021 年 12 月 1 日起,无法创建新的机器学习工作室(经典)资源(工作区和 Web 服务计划)。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)试验和 Web 服务。 有关详细信息,请参阅:
机器学习工作室(经典版)文档即将停用,未来可能不再更新。
借助该服务,可轻松创建管道,这些管道使用已发布的工作室(经典)Web 服务进行预测分析。 使用管道中的批处理执行活动,可调用工作室(经典版)Web 服务针对批量数据进行预测。
随着时间推移,需要使用新的输入数据集重新定型工作室(经典版)评分实验中的预测模型。 完成重新定型后,可使用重新定型的机器学习模型更新评分 Web 服务。 可以使用更新资源活动,通过新的训练模型更新 Web 服务。
有关这些工作室(经典)活动的详细信息,请参阅使用机器学习工作室(经典)活动。
存储过程活动
可使用数据工厂管道中的 SQL Server 存储过程活动调用以下数据存储之一中的存储过程:你的企业或 Azure VM 中的 Azure SQL 数据库、Azure Synapse Analytics、SQL Server 数据库。 有关详细信息,请参阅存储过程活动一文。
Data Lake Analytics U-SQL 活动
Data Lake Analytics U-SQL 活动在 Azure Data Lake Analytics 群集上运行 U-SQL 脚本。 有关详细信息,请参阅 Data Analytics U-SQL 活动一文。
Azure Synapse Notebook 活动
Synapse 管道中的 Azure Synapse Notebook 活动在你的 Azure Synapse 工作区中运行 Synapse Notebook。 请参阅通过运行 Azure Synapse Notebook 转换数据。
Databricks Notebook 活动
管道中的 Azure Databricks Notebook 活动在 Azure Databricks 工作区中运行 Databricks Notebook。 Azure Databricks 是一个用于运行 Apache Spark 的托管平台。 请参阅通过运行 Databricks Notebook 转换数据。
Databricks Jar 活动
管道中的 Azure Databricks Jar 活动在 Azure Databricks 群集中运行 Spark Jar。 Azure Databricks 是一个用于运行 Apache Spark 的托管平台。 请参阅通过运行 Azure Databricks 中的 Jar 活动转换数据。
Databricks Python 活动
管道中的 Azure Databricks Python 活动在 Azure Databricks 群集中运行 Python 文件。 Azure Databricks 是一个用于运行 Apache Spark 的托管平台。 请参阅通过运行 Azure Databricks 中的 Python 活动转换数据。
自定义活动
如果需要采用数据工厂不支持的方式转换数据,可以使用自己的数据处理逻辑创建自定义活动,并在管道中使用该活动。 可以使用 Azure Batch 服务或 Azure HDInsight 群集配置要运行的自定义 .NET 活动。 有关详细信息,请参阅使用自定义活动文章。
可以创建一项自定义活动,在安装了 R 的 HDInsight 群集上运行 R 脚本。 请参阅使用 Azure 数据工厂和 Synapse 管道运行 R 脚本。
计算环境
为计算环境创建链接服务,并在定义转换活动时使用该服务。 有两种受支持的计算环境类型。
- 按需:此情况下,计算环境由该服务完全托管。 作业提交到进程数据前,该服务会自动创建计算环境,作业完成后则自动将其删除。 针对作业执行、群集管理和启动操作,可以配置和控制按需计算环境的粒度设置。
- 自带:此情况下,可将自己的计算环境(例如 HDInsight 群集)注册为链接服务。 计算环境由用户进行管理,该服务使用它执行活动。
有关受支持的计算服务,请参阅计算链接服务一文。
相关内容
请参阅以下使用转换活动的示例教程:教程:使用 Spark 转换数据