Compartir vía


Ejemplo de precios: copia de datos y transformación con Azure Databricks

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este escenario, quiere copiar datos de AWS S3 a Azure Blob Storage y transformarlos con Azure Databricks en una programación por hora durante 8 horas al día durante 30 días.

Los precios que se usan en el ejemplo siguiente son hipotéticos y no pretenden reflejar precios reales. Los costes de lectura y escritura, y de supervisión no se muestran, ya que normalmente son insignificantes y no afectan a los costes generales de manera significativa. Además, las ejecuciones de actividad se redondean al millar más cercano en las estimaciones de la calculadora de precios.

Nota:

Este presupuesto es solo para los costes de Azure Data Factory implicados. Azure Databricks también incurrirá en costes en este escenario, pero puede calcular mediante la Calculadora de precios de Azure.

Vea la calculadora de precios de Azure para conocer escenarios más específicos y para calcular los futuros costos de uso del servicio.

Configuración

Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:

  • Una actividad de copia con un conjunto de datos de entrada para los datos que desea copiar desde AWS S3 y un conjunto de datos de salida para los datos del almacenamiento de Azure.
  • Una actividad de Azure Databricks para la transformación de datos.
  • Un desencadenador de programación para ejecutar la canalización cada hora. Cuando quiera ejecutar una canalización, puede desencadenarla inmediatamente o programarla. Además de la canalización en sí, cada instancia de desencadenador cuenta como una sola ejecución de actividad.

Diagrama en el que se muestra una canalización con un desencadenador programado. En la canalización, la actividad de copia fluye a un conjunto de datos de entrada, un conjunto de datos de salida y una actividad de Databricks, que se ejecuta en Azure Databricks. El conjunto de datos de entrada fluye hacia un servicio vinculado de AWS S3. El conjunto de datos de salida fluye hacia un servicio vinculado de Azure Storage.

Estimación de costes

Operaciones Tipos y unidades
Ejecución de la canalización Tres ejecuciones de actividad por ejecución (una para la ejecución de desencadenador y dos para ejecuciones de actividad) = 720 ejecuciones de actividad redondeadas al alza, ya que la calculadora solo permite incrementos de 1000.
Suposición de copia de datos: horas de DIU por ejecución = 10 min 10 min / 60 min * 4 Azure Integration Runtime (valor predeterminado de DIU = 4). Para obtener más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, vea este artículo.
Suposición de la ejecución de actividad de Databricks: horas de ejecución externa por ejecución = 10 min Ejecución de la actividad de canalización externa de 10 min / 60 min

Ejemplo de calculadora de precios

Precio total del escenario durante 30 días: 41,01 USD

Captura de pantalla de la calculadora de precios configurada para una copia de datos y transformación con el escenario de Azure Databricks.