Compartir a través de


Proceso de ingestión con análisis a escala de la nube en Azure

Azure proporciona varios servicios para ingerir y liberar datos en plataformas nativas y de terceros. Se pueden usar diferentes servicios, en función del volumen, la velocidad, la variedad y la dirección. Algunos de estos servicios son:

  • Azure Data Factory es un servicio creado para todas las necesidades de aplicación de datos (alineados por el origen) y niveles de aptitud. Escriba su propio código o construya, extraiga, cargue y transforme procesos dentro del entorno visual intuitivo y sin código. Con más de 90 conectores integrados y sin mantenimiento de forma nativa, integre visualmente orígenes de datos sin costo adicional. Los ingenieros pueden usar puntos de conexión privados y servicios de vínculo para conectarse de forma segura a recursos de plataforma como servicio (PaaS) de Azure sin usar los puntos de conexión públicos del recurso PaaS. Los ingenieros pueden usar entornos de ejecución de integración para ampliar las canalizaciones a entornos de terceros, como orígenes de datos locales y otras nubes.

Algunos de estos conectores admiten el uso como origen (lectura) o como receptor (escritura). Los servicios nativos de Azure, Oracle, SAP y otros se pueden usar como origen o receptor, pero no todos los conectores lo admiten. En estos casos, puede usar conectores genéricos como Open Database Connectivity (ODBC), el sistema de archivos o los conectores del Protocolo de transferencia de archivos SSH (SFTP).

  • azure Databricks es un servicio de análisis rápido, sencillo y colaborativo basado en Apache-Spark. Para una canalización de macrodatos, puede ingerir los datos (sin procesar o estructurados) en Azure a través de Data Factory en lotes o transmitirlos casi en tiempo real con Apache Kafka, Azure Event Hubs o IoT Hub. Estos datos llegan a un lago de datos para el almacenamiento persistente a largo plazo en Azure Data Lake Storage. Azure Databricks puede leer datos de varios orígenes de datos como parte del flujo de trabajo.

  • Microsoft Power Platform proporciona conectores a cientos de servicios que pueden ser controlados por eventos, programación o inserción. Microsoft Power Automate puede actuar en eventos y desencadenar flujos de trabajo optimizados para registros únicos o volúmenes de datos pequeños.

Las herramientas nativas y de terceros propietarias proporcionan funcionalidades de nicho para integrarse con sistemas especializados y replicación casi en tiempo real.

  • azure Data Share admite que las organizaciones compartan datos de forma segura con varios clientes y asociados externos. Después de crear una cuenta de compartición de datos y agregar productos de datos, se puede invitar a los clientes y socios a la compartición de datos. Los proveedores de datos siempre están en control de los datos que han compartido. Azure Data Share facilita la administración y supervisión de los datos que se comparten, cuándo se ha compartido y quién lo ha compartido.

Importante

Cada zona de aterrizaje de datos puede tener un grupo de recursos de ingesta de datos que existe para empresas con un motor de ingesta independiente de datos. Si no tiene este motor de framework, el único recurso recomendado es implementar un área de trabajo de análisis de Azure Databricks, que las integraciones de datos utilizarían para ejecutar una ingesta compleja. Consulte el motor de ingesta independiente de datos para ver posibles patrones de automatización.

Consideraciones de ingesta de Azure Data Factory

Si tiene un motor de ingesta independiente de datos, debe implementar una única factoría de datos para cada zona de aterrizaje de datos en el grupo de recursos de ingesta de datos. El área de trabajo de Data Factory debe estar bloqueada para los usuarios y solo las identidades administradas y las entidades de servicio tendrán acceso a la implementación. Las operaciones de la zona de aterrizaje de datos deben tener acceso de lectura para permitir la depuración de canalizaciones.

La aplicación de datos puede tener una instancia de Data Factory propia para el movimiento de datos. Tener una factoría de datos en cada grupo de recursos de aplicación de datos admite una experiencia completa de integración continua (CI) e implementación continua (CD) solo permitiendo la implementación de canalizaciones desde Azure DevOps o GitHub.

Todas las áreas de trabajo de Data Factory usarán principalmente la característica de red virtual administrada (VNet) en Data Factory o entorno de ejecución de integración autohospedado para su zona de aterrizaje de datos dentro de la zona de aterrizaje de administración de datos. Se recomienda a los ingenieros que usen la característica de red virtual administrada para conectarse de forma segura al recurso paaS de Azure.

Sin embargo, es posible crear más entornos de ejecución de integración para ingerir desde orígenes de datos locales, servicios en la nube de terceros y software de terceros como servicio (SaaS).

Consideraciones de ingesta de Azure Databricks

En esta guía se explica la información de:

  • Protección del acceso a Azure Data Lake Storage Gen2 desde Azure Databricks

  • procedimientos recomendados de Azure Databricks

  • Para el desarrollo, las operaciones de integración deben tener sus propios entornos de Azure Databricks antes de registrar el código que se va a implementar en el único espacio de trabajo de Azure Databricks durante las pruebas y la producción.

  • Data Factory en el grupo de recursos de aplicación de datos (alineados por el origen) debe proporcionar el marco para llamar a trabajos de Azure Databricks.

  • Los equipos de aplicaciones de datos pueden implementar trabajos cortos y automatizados en Azure Databricks y esperar que sus clústeres se inicien rápidamente, ejecuten el trabajo y finalicen. Se recomienda configurar grupos en Azure Databricks para reducir el tiempo que tardan los clústeres en ponerse en marcha para ejecutar trabajos.

  • Se recomienda que las organizaciones usen Azure DevOps para implementar un marco de implementación para nuevas canalizaciones. El marco se usará para crear las carpetas del conjunto de datos, asignar listas de control de acceso y crear una tabla con o sin aplicar controles de acceso a tablas de Databricks.

Ingesta de secuencias

Es posible que las organizaciones necesiten admitir escenarios en los que los publicadores generan flujos de eventos de alta velocidad. Para este patrón, se recomienda una cola de mensajes, por ejemplo, Event Hubs o IoT Hub, para ingerir estos flujos.

Event Hubs e IoT Hub son servicios de procesamiento de eventos escalables que pueden ingerir y procesar grandes volúmenes de eventos y datos con baja latencia y alta confiabilidad. Event Hubs está diseñado como un servicio de ingesta de eventos y streaming de macrodatos. IoT Hub es un servicio administrado que actúa como un centro de mensajes central para la comunicación bidireccional entre una aplicación de IoT y los dispositivos que administra. Desde allí, los datos se pueden exportar a un lago de datos a intervalos regulares (por lotes) y procesarlos con Azure Databricks casi en tiempo real a través de Apache Spark Streaming, Azure Data Explorer, Stream Analytics o Time Series Insights.

La última zona de aterrizaje de Event Hubs o Apache Kafka dentro de la zona de aterrizaje específica del caso de uso debe enviar sus datos agregados a la capa sin procesar del lago de datos en una de las zonas de aterrizaje de datos y a Event Hubs en relación con el grupo de recursos de aplicación de datos (alineados por el origen) de la zona de aterrizaje de datos.

Supervisión de la ingesta

La supervisión de canalizaciones de Azure Data Factory lista para usar se puede utilizar para supervisar y solucionar problemas de las excepciones de las canalizaciones de Data Factory. Reduce el esfuerzo de desarrollar una solución de supervisión e informes personalizada.

La supervisión integrada es una de las principales razones para usar Azure Data Factory como herramienta de orquestación principal y Azure Policy puede ayudar a automatizar esta configuración.

Pasos siguientes

Ingesta de SAP con análisis a escala de la nube en Azure