Descripción de los métodos de transformación de Azure Data Factory
Del mismo modo que Azure Data Factory proporciona varios métodos para la ingesta de datos, también proporciona distintos métodos para realizar transformaciones. Puede elegir un método que coincida con el conjunto de aptitudes del equipo o que aproveche las tecnologías existentes que ya tiene en sus datos. También existe la oportunidad de realizar transformaciones sin escribir ningún código mediante el flujo de datos de asignación.
Transformación de datos mediante el flujo de datos de asignación
Los flujos de datos de asignación proporcionan un entorno para crear una gran variedad de transformaciones de datos visualmente sin necesidad de usar código. Los flujos de datos resultantes que se crean se ejecutan posteriormente en clústeres de Apache Spark escalados horizontalmente que se aprovisionan automáticamente al ejecutar el flujo de datos de asignación. Los flujos de datos de asignación también proporcionan la capacidad de supervisar la ejecución de las transformaciones, de modo que pueda ver cómo progresan o comprender los errores que puedan producirse.
Transformación de datos mediante recursos de procesos
Azure Data Factory también puede llamar a recursos de procesos para transformar los datos mediante un servicio de plataforma de datos que pueda ser más adecuado para el trabajo. Un buen ejemplo de esto es que Azure Data Factory puede crear una canalización a una plataforma de datos analíticos, como los grupos de Spark en una instancia de Azure Synapse Analytics, para realizar un cálculo complejo mediante Python. Otro ejemplo podría ser el envío de los datos a una instancia de Azure SQL Database para ejecutar un procedimiento almacenado mediante Transact-SQL. En la tabla siguiente se muestra la amplia gama de recursos de procesos existentes junto con las actividades asociadas que pueden realizar:
Entorno de procesos | activities |
---|---|
Clúster de HDInsight a petición o clúster HDInsight propio | Hive, Pig, Spark, MapReduce, Hadoop Streaming |
Azure Batch | Actividades personalizadas |
Máquina de estudio de Azure Machine Learning | Actividades de Machine Learning: ejecución de Batch y recurso de actualización |
Azure Machine Learning | Ejecución de canalización de Azure Machine Learning |
Análisis con Azure Data Lake | U-SQL de análisis con Data Lake |
Azure SQL, Azure SQL Data Warehouse, SQL Server | Procedimiento almacenado |
Azure Databricks | Notebook, Jar, Python |
Función de Azure | Actividad de función de Azure |
Transformación de datos mediante paquetes de SQL Server Integration Services (SSIS)
Muchas organizaciones han invertido durante décadas en el desarrollo de paquetes SSIS que contienen lógica de ingesta y transformación a partir de almacenes de datos locales y en la nube. Azure Data Factory proporciona la capacidad de migrar mediante lift-and-shift la carga de trabajo de SSIS existente creando una instancia de Azure-SSIS Integration Runtime para ejecutar los paquetes SSIS de forma nativa. Con Azure-SSIS Integration Runtime, podrá implementar y administrar los paquetes SSIS existentes con poco o ningún cambio utilizando herramientas conocidas, como SQL Server Data Tools (SSDT) y SQL Server Management Studio (SSMS), de manera similar a usar SSIS de forma local.