Compartir vía


Copiar datos y transformarlos con parámetros dinámicos por hora

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este escenario, hay que copiar datos desde AWS S3 a Azure Blob Storage y transformarlos con Azure Databricks (con parámetros dinámicos en el script) una vez por hora durante 8 horas diarias en un periodo de 30 días.

Los precios que se usan en el ejemplo siguiente son hipotéticos y no pretenden reflejar precios reales. Los costes de lectura y escritura y de supervisión no se muestran, ya que normalmente son insignificantes y apenas afectan a los costes generales. Además, las ejecuciones de actividad se redondean al millar más cercano en las estimaciones de la calculadora de precios.

Vea la calculadora de precios de Azure para conocer escenarios más específicos y para calcular los futuros costos de uso del servicio.

Configuración

Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:

  • Una actividad de copia con un conjunto de datos de entrada para los datos que desea copiar desde AWS S3 y un conjunto de datos de salida para los datos del almacenamiento de Azure.
  • Una actividad de búsqueda para pasar parámetros de forma dinámica al script de transformación.
  • Una actividad de Azure Databricks para la transformación de datos.
  • Un desencadenador de programación para ejecutar la canalización cada hora durante 8 horas al día. Cuando quiera ejecutar una canalización, puede desencadenarla inmediatamente o programarla. Además de la canalización en sí, cada instancia de desencadenador cuenta como una sola ejecución de actividad.

Diagrama en el que se muestra una canalización con un desencadenador programado. En la canalización, la actividad de copia fluye a un conjunto de datos de entrada, un conjunto de datos de salida y una actividad de búsqueda que fluye hacia una actividad de Databricks, que se ejecuta en Azure Databricks. El conjunto de datos de entrada fluye hacia un servicio vinculado de AWS S3. El conjunto de datos de salida fluye hacia un servicio vinculado de Azure Storage.

Estimación de costes

Operaciones Tipos y unidades
Ejecución de la canalización Cuatro ejecuciones de actividad por ejecución (una para la ejecución de desencadenador y tres para ejecuciones de actividad) = 960 ejecuciones de actividad redondeadas al alza, ya que la calculadora solo permite incrementos de 1000.
Suposición de copia de datos: horas de DIU por ejecución = 10 min 10 min / 60 min * 4 Azure Integration Runtime (valor predeterminado de DIU = 4). Para obtener más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, vea este artículo
Suposición de la ejecución de actividad de búsqueda: horas de actividad de la canalización por ejecución = 1 minuto 1 min / 60 min de ejecución de la actividad de canalización de 1 min
Suposición de la ejecución de actividad de Databricks: horas de ejecución externa por ejecución = 10 min 10 min / 60 min de ejecución de la actividad de canalización externa

Ejemplo de precios: ejemplo de la calculadora de precios

Precio total del escenario durante 30 días: 41,03 USD

Captura de pantalla de la calculadora de precios configurada para una copia de datos y transformación con el escenario de parámetros dinámicos.