Explicar os métodos de transformação do Azure Data Factory
Assim como Azure Data Factory fornece uma variedade de métodos para ingerir dados, ele também fornece uma variedade de métodos para executar transformações. Você pode escolher um método que corresponda às habilidades da sua equipe ou aproveitar as tecnologias que você já tem em seu patrimônio de dados. Também há a oportunidade de executar transformações sem escrever código usando o Fluxo de Dados de Mapeamento.
Como transformar dados usando o Fluxo de Dados de Mapeamento
O fluxo de dados de mapeamento fornece um ambiente para criar uma ampla gama de transformações de dados visualmente sem necessidade de usar código. Os fluxos de dados resultantes criados são executados posteriormente em clusters do Apache Spark escalados horizontalmente provisionados de modo automático quando você executa o Fluxo de Dados de Mapeamento. O fluxo de dados de mapeamento também permite monitorar a execução das transformações para que você possa ver como as transformações estão progredindo ou entenda os erros que podem ocorrer
Como transformar dados usando recursos de computação
O Azure Data Factory também pode chamar recursos de computação para transformar dados por meio do serviço de plataforma de dados que pode ser mais adequado para o trabalho. Um ótimo exemplo disso é que Azure Data Factory pode criar um pipeline para uma plataforma de dados analíticos, como pools do Spark, em uma instância do Azure Synapse Analytics para executar um cálculo complexo usando Python. Outro exemplo seria enviar dados para uma instância do Banco de Dados SQL do Azure para executar um procedimento armazenado usando o Transact-SQL. Há uma ampla variedade de recursos de computação e as atividades associadas que eles podem executar, conforme mostra a seguinte tabela:
Ambiente de computação | atividades |
---|---|
Cluster HDInsight sob demanda ou seu próprio cluster HDInsight | Hive, Pig, Spark, MapReduce, Hadoop Streaming |
Lote do Azure | Atividades personalizadas |
Computador do Estúdio do Azure Machine Learning | Atividades de machine learning: Batch Execution e Update Resource |
Azure Machine Learning | Pipeline de execução do Azure Machine Learning |
Análise Azure Data Lake | U-SQL da Análise Data Lake |
Azure SQL, Azure SQL Data Warehouse, SQL Server | Procedimento armazenado |
Azure Databricks | Notebook, Jar, Python |
Azure Function | Atividade do Azure Function |
Como transformar dados usando pacotes SSIS (SQL Server Integration Services)
Muitas organizações têm décadas de investimento em desenvolvimento em pacotes SSIS que contêm a lógica de ingestão e transformação de armazenamentos de dados locais e na nuvem. O Azure Data Factory permite aumentar e deslocar a carga de trabalho do SSIS existente, criando um Azure-SSIS Integration Runtime para executar pacotes SSIS nativamente. Usar o Azure-SSIS Integration Runtime permitirá que você implante e gerencie seus pacotes SSIS com pouca ou nenhuma alteração usando ferramentas familiares, como SSDT (SQL Server Data Tools) e SSMS (SQL Server Management Studio), além do SSIS local.