Enumeración de los métodos de ingesta de factoría de datos
Azure Data Factory puede acomodar a las organizaciones que están emprendiendo proyectos de integración de datos desde un punto de partida diferente. Los proyectos de migración de datos raramente son proyectos nuevos. Normalmente, muchos flujos de trabajo de integración de datos deben tener en cuenta las canalizaciones existentes que se han creado en proyectos anteriores con diferentes dependencias y mediante distintas tecnologías. Para ello, existen varios métodos de ingesta que se pueden usar para extraer los datos de diversos orígenes.
Ingesta de datos mediante la actividad de copia
Use este método para compilar canalizaciones de ingesta de datos sin código que no requieran ninguna transformación durante la extracción de los datos. La actividad de copia es compatible con más de 100 conectores nativos. Este método puede adaptarse a los proyectos nuevos que tienen un método simple de extracción a un almacén de datos intermediario. Un ejemplo de ingesta de datos mediante la actividad de copia puede incluir la extracción de datos de varios sistemas de bases de datos de origen y la salida de los datos en archivos de un almacén de lago de datos. La ventaja de este método de ingesta es que es fácil de crear, pero no puede lidiar con transformaciones sofisticadas ni con la lógica de negocios.
Ingesta de datos mediante recursos de procesos
Azure Data Factory puede llamar a recursos de procesos para que los datos se procesen en un servicio de plataforma de datos que pueda ser más adecuado para el trabajo. Un buen ejemplo de esto es que Azure Data Factory puede crear una canalización a una plataforma de datos analíticos, como los grupos de Spark en una instancia de Azure Synapse Analytics, para realizar un cálculo complejo que genera nuevos datos. Estos datos se vuelven a introducir en la canalización para el procesamiento posterior. En la tabla siguiente se muestra la amplia gama de recursos de procesos existentes junto con las actividades asociadas que pueden realizar:
Entorno de procesos | activities |
---|---|
Clúster de HDInsight a petición o clúster HDInsight propio | Hive, Pig, Spark, MapReduce, Hadoop Streaming |
Azure Batch | Actividades personalizadas |
Máquina de estudio de Azure Machine Learning | Actividades de Machine Learning: ejecución de Batch y recurso de actualización |
Azure Machine Learning | Ejecución de canalización de Azure Machine Learning |
Análisis con Azure Data Lake | U-SQL de análisis con Data Lake |
Azure SQL, Azure SQL Data Warehouse, SQL Server | Procedimiento almacenado |
Azure Databricks | Notebook, Jar, Python |
Función de Azure | Actividad de función de Azure |
Ingestión de datos mediante paquetes SSIS
Muchas organizaciones han invertido durante décadas en el desarrollo de paquetes de SQL Server Integration Services (SSIS) que contienen lógica de ingesta y transformación a partir de almacenes de datos locales y en la nube. Azure Data Factory proporciona la capacidad de migrar mediante lift-and-shift la carga de trabajo de SSIS existente creando una instancia de Azure-SSIS Integration Runtime para ejecutar paquetes SSIS de forma nativa, y le permitirá implementar y administrar los paquetes SSIS existentes sin ningún cambio mediante herramientas conocidas como SQL Server Data Tools (SSDT) y SQL Server Management Studio (SSMS), al igual que con SSIS en el entorno local.