Entender o Apache Spark para desenvolvedores U-SQL
Importante
O Azure Data Lake Analytics se aposentou em 29 de fevereiro de 2024. Saiba mais com este comunicado.
Para análise de dados, sua organização pode usar o Azure Synapse Analytics ou o Microsoft Fabric.
A Microsoft dá suporte a vários serviços de Análise, como o Azure Databricks, o Azure HDInsight e o Azure Data Lake Analytics. Ouvimos dos desenvolvedores que eles têm uma preferência clara por soluções de software livre à medida que criam pipelines de análise. Para ajudar os desenvolvedores do U-SQL a entender o Apache Spark e como você pode transformar seus scripts U-SQL no Apache Spark, criamos essa orientação.
Ele inclui as etapas que você pode executar e várias alternativas.
Etapas para transformar o U-SQL no Apache Spark
Transforme seus pipelines de orquestração de tarefas.
Se você usar o Azure Data Factory para orquestrar seus scripts do Azure Data Lake Analytics, precisará ajustá-los para orquestrar os novos programas spark.
Entenda as diferenças entre como o U-SQL e o Spark gerenciam dados.
Se você quiser mover seus dados do Azure Data Lake Storage Gen1 para o Azure Data Lake Storage Gen2, será necessário copiar os dados do arquivo e os dados mantidos pelo catálogo. O Azure Data Lake Analytics só dá suporte ao Azure Data Lake Storage Gen1. Para obter mais informações, consulte Noções básicas sobre os formatos de dados do Spark.
Transforme seus scripts U-SQL no Spark.
Antes de transformar seus scripts U-SQL, você precisa escolher um serviço de análise. Alguns dos serviços de computação disponíveis estão:
- DataFlow do Azure Data Factory Os fluxos de dados de mapeamento são transformações de dados projetadas visualmente que permitem que os engenheiros de dados desenvolvam uma lógica de transformação de dados gráficos sem escrever código. Embora não sejam adequados para executar código de usuário complexo, eles podem facilmente representar transformações de fluxo de dados tradicionais semelhantes a SQL
- Hive do Azure HDInsight O Apache Hive no HDInsight é adequado para operações ETL (Extrair, Transformar e Carregar). Isso significa que você vai traduzir seus scripts U-SQL para o Apache Hive.
- Mecanismos do Apache Spark, como o Azure HDInsight Spark ou o Azure Databricks , isso significa que você vai traduzir seus scripts U-SQL para o Spark. Para obter mais informações, consulte Noções básicas sobre os formatos de dados do Spark
Cuidado
O Azure Databricks e o Azure HDInsight Spark são serviços de cluster e não trabalhos sem servidor, como o Azure Data Lake Analytics. Você precisará considerar como provisionar os clusters para obter a taxa de custo/desempenho apropriada e como gerenciar seu tempo de vida para minimizar seus custos. Esses serviços têm características de desempenho diferentes com o código do usuário escrito no .NET, portanto, você precisará escrever wrappers ou reescrever seu código em um idioma com suporte. Para obter mais informações, consulte Noções básicas sobre os formatos de dados do Spark, entenda os conceitos de código do Apache Spark para desenvolvedores do U-SQL, .NET para Apache Spark
Próximas etapas
- Entender os formatos de dados do Spark para desenvolvedores U-SQL
- Entender os conceitos de código do Spark para desenvolvedores U-SQL
- Atualizar suas soluções de análise de Big Data do Azure Data Lake Storage Gen1 para o Azure Data Lake Storage Gen2
- .NET para Apache Spark
- Transformar dados usando a atividade do Hive do Hadoop no Azure Data Factory
- Transformar dados usando a atividade do Spark no Azure Data Factory
- O que é o Apache Spark no Azure HDInsight