了解适用于 U-SQL 开发人员的 Apache Spark

重要

Azure Data Lake Analytics已于 2024 年 2 月 29 日停用。 通过此公告了解更多信息。

对于数据分析,你的组织可以使用 Azure Synapse AnalyticsMicrosoft Fabric

Microsoft 支持多种分析服务,例如 Azure DatabricksAzure HDInsight 和 Azure Data Lake Analytics。 我们了解到,开发人员在构建分析管道时,明确表现出对开源解决方案的偏好。 为了帮助 U-SQL 开发人员了解 Apache Spark 和如何将 U-SQL 脚本转换为 Apache Spark,我们创作了本指南。

它包括你可以执行的步骤和几个替代方法。

将 U-SQL 转换为 Apache Spark 的步骤

  1. 转换作业业务流程管道。

    如果使用 Azure 数据工厂 来协调 Azure Data Lake Analytics 脚本,则必须调整它们以协调新的 Spark 程序。

  2. 了解 U-SQL 和 Spark 管理数据的方式之间的差异。

    如果要将数据从 Azure Data Lake Storage Gen1 移动到Azure Data Lake Storage Gen2,则必须同时复制文件数据和目录维护数据。 Azure Data Lake Analytics 仅支持 Azure Data Lake Storage Gen1。 有关详细信息,请参阅 了解 Spark 数据格式

  3. 将 U-SQL 脚本转换为 Spark。

    在转换 U-SQL 脚本之前,必须选择分析服务。 可用的计算服务包括:

    • Azure 数据工厂数据流映射数据流是一种直观的数据转换过程,允许数据工程师无需编写代码即可开发图形数据转换逻辑。 虽然它不适合执行复杂的用户代码,但可以轻松表示传统类似 SQL 的数据流转换
    • Azure HDInsight Hive HDInsight 上的 Apache Hive 适用于提取、转换和加载 (ETL) 操作。 这意味着你要将 U-SQL 脚本转换为 Apache Hive。
    • Apache Spark 引擎(例如 Azure HDInsight SparkAzure Databricks )这意味着你要将 U-SQL 脚本转换为 Spark。 有关详细信息,请参阅了解 Spark 数据格式

注意

Azure DatabricksAzure HDInsight Spark 都是群集服务,并非如 Azure Data Lake Analytics 的无服务器作业。 必须考虑如何预配群集以实现适当的成本/性能比,以及如何管理其生存期以最大程度降低成本。 这些服务的用户代码采用 .NET 编写,具有不同的性能特征,因此必须采用受支持的语言编写包装器或重写代码。 有关详细信息,请参阅 了解 Spark 数据格式了解适用于 U-SQL 开发人员的 Apache Spark 代码概念适用于 Apache Spark 的 .NET

后续步骤