Explicar os métodos de transformação do Azure Data Factory
Assim como o Azure Data Factory fornece uma variedade de métodos para ingerir dados, ele também fornece uma variedade de métodos para executar transformações. Você pode escolher um método que corresponda aos conjuntos de habilidades de sua equipe ou aproveite as tecnologias existentes que você já tem em seu conjunto de dados. Há também a oportunidade de realizar transformações sem escrever código usando o Mapping Data Flow.
Transformando dados usando o mapeamento de fluxo de dados
O mapeamento de fluxos de dados fornece um ambiente para criar uma ampla gama de transformações de dados visualmente sem a necessidade de usar código. Os fluxos de dados resultantes que são criados são subsequentemente executados em clusters Apache Spark dimensionados que são automaticamente provisionados quando você executa o Mapeamento de Fluxo de Dados. O mapeamento de fluxos de dados também fornece a capacidade de monitorar a execução das transformações para que você possa visualizar como as transformações estão progredindo ou para entender quaisquer erros que possam ocorrer
Transformando dados usando recursos de computação
O Azure Data Factory também pode recorrer a recursos de computação para transformar dados através de um serviço de plataforma de dados que pode ser mais adequado ao trabalho. Um ótimo exemplo disso é que o Azure Data Factory pode criar um pipeline para uma plataforma de dados analíticos, como pools do Spark, em uma instância do Azure Synapse Analytics para executar um cálculo complexo usando python. Outro exemplo pode ser enviar dados para uma instância do Banco de Dados SQL do Azure para executar um procedimento armazenado usando Transact-SQL. Há uma ampla gama de recursos de computação e as atividades associadas que eles podem executar, conforme mostrado na tabela a seguir:
Ambiente de computação | atividades |
---|---|
Cluster HDInsight sob demanda ou seu próprio cluster HDInsight | Colmeia, Porco, Faísca, MapReduce, Hadoop Streaming |
Azure Batch | Atividades personalizadas |
Azure Machine Learning Studio Machine | Atividades de aprendizagem: Execução em lote e recurso de atualização |
Azure Machine Learning | Pipeline de Execução do Azure Machine Learning |
Azure Data Lake Analytics | Data Lake Analytics U-SQL |
Azure SQL, Azure SQL Data Warehouse, SQL Server | Procedimento Armazenado |
Azure Databricks | Notebook, Jar, Python |
Função do Azure | Atividade do Azure Function |
Transformando dados usando pacotes do SQL Server Integration Services (SSIS)
Muitas organizações têm décadas de investimento em desenvolvimento em pacotes SSIS que contêm lógica de ingestão e transformação de armazenamentos de dados locais e na nuvem. O Azure Data Factory fornece a capacidade de elevar e deslocar a carga de trabalho existente do SSIS, criando um Tempo de Execução de Integração Azure-SSIS para executar nativamente pacotes SSIS. O uso do Tempo de Execução de Integração do Azure-SSIS permitirá que você implante e gerencie seus pacotes SSIS existentes com pouca ou nenhuma alteração usando ferramentas familiares, como o SSDT (SQL Server Data Tools) e o SSMS (SQL Server Management Studio), assim como usar o SSIS no local.