Partilhar via


Compreender o Apache Spark para programadores de U-SQL

Importante

O Azure Data Lake Analytics descontinuado a 29 de fevereiro de 2024. Saiba mais com este anúncio.

Para análise de dados, a sua organização pode utilizar o Azure Synapse Analytics ou o Microsoft Fabric.

A Microsoft suporta vários serviços de Análise, como o Azure Databricks, o Azure HDInsight e o Azure Data Lake Analytics. Ouvimos dos programadores que têm uma preferência clara por soluções open source à medida que criam pipelines de análise. Para ajudar os programadores de U-SQL a compreender o Apache Spark e como pode transformar os scripts U-SQL no Apache Spark, criámos esta documentação de orientação.

Inclui os passos que pode seguir e várias alternativas.

Passos para transformar o U-SQL no Apache Spark

  1. Transforme os pipelines de orquestração de tarefas.

    Se utilizar Azure Data Factory para orquestrar os scripts do Azure Data Lake Analytics, tem de os ajustar para orquestrar os novos programas spark.

  2. Compreenda as diferenças entre a forma como o U-SQL e o Spark gerem os dados.

    Se quiser mover os dados do Azure Data Lake Storage Gen1 para Azure Data Lake Storage Gen2, tem de copiar os dados de ficheiro e os dados mantidos do catálogo. O Azure Data Lake Analytics só suporta Azure Data Lake Storage Gen1. Para obter mais informações, veja Compreender os formatos de dados do Spark.

  3. Transforme os scripts U-SQL no Spark.

    Antes de transformar os scripts U-SQL, tem de escolher um serviço de análise. Alguns dos serviços de computação disponíveis são:

    • Azure Data Factory fluxos de dados de Mapeamento de Fluxos de Dados são transformações de dados concebidas visualmente que permitem aos engenheiros de dados desenvolver uma lógica de transformação de dados gráficos sem escrever código. Apesar de não serem adequados para executar código de utilizador complexo, podem representar facilmente transformações de fluxos de dados tradicionais semelhantes a SQL
    • Hive do Azure HDInsight O Apache Hive no HDInsight é adequado para operações de Extração, Transformação e Carregamento (ETL). Isto significa que vai traduzir os scripts U-SQL para o Apache Hive.
    • Motores do Apache Spark, como o Azure HDInsight Spark ou o Azure Databricks , isto significa que vai traduzir os scripts U-SQL para o Spark. Para obter mais informações, veja Compreender os formatos de dados do Spark

Atenção

Tanto o Azure Databricks como o Azure HDInsight Spark são serviços de cluster e não tarefas sem servidor, como o Azure Data Lake Analytics. Terá de considerar como aprovisionar os clusters para obter a relação custo/desempenho adequada e como gerir a sua duração para minimizar os custos. Estes serviços têm características de desempenho diferentes com código de utilizador escrito no .NET, pelo que terá de escrever wrappers ou reescrever o código num idioma suportado. Para obter mais informações, veja Compreender os formatos de dados do Spark, Compreender os conceitos de código do Apache Spark para programadores de U-SQL, .NET para Apache Spark

Passos seguintes