Varias zonas de datos para el análisis a escala de nube en Azure
Esta arquitectura de referencia es para las organizaciones que han implementado una versión básica del análisis a escala de nube y ahora están listas para hospedar nuevas unidades de negocio para ayudar a modernizar sus operaciones de análisis. Este escenario más complejo utiliza varias zonas de aterrizaje, aplicaciones de datos y productos de datos.
Apache Hive y el logotipo de Hive son marcas registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos y otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.
Declaración del problema
Relecloud, la empresa ficticia de este ejemplo, es un proveedor de nube privada que ofrece recursos de proceso y almacenamiento compartidos a organizaciones globales. Aunque Relecloud proporciona recursos de proceso, no quiere restringir su plataforma con sus propias operaciones internas. Por lo tanto, se basan en Microsoft Azure para satisfacer sus necesidades informáticas internas.
Los analistas de datos del grupo de operaciones usan datos de telemetría de los servicios en la nube para comprender cómo usan la plataforma sus clientes. Un equipo independiente de analistas del grupo de facturación estudia datos de facturación para obtener información sobre qué servicios generan más ingresos.
El último trimestre, el equipo de operaciones modernizó su plataforma de análisis mediante su migración a Azure. Un objetivo al implementar el análisis a escala de nube era maximizar el potencial para escalar la plataforma y agregar nuevas cargas de trabajo de la organización.
En la actualidad, el grupo de facturación ha superado la solución de análisis actual. El volumen de facturas que deben analizar es demasiado grande para su servidor local. El equipo decide seguir el ejemplo del grupo de operaciones y modernizar su plataforma de análisis de datos en Azure.
Los analistas del grupo de facturación tienen aptitudes diferentes a las de los analistas del grupo de operaciones. Los analistas de facturación no quieren verse limitados a utilizar las mismas herramientas que los de operaciones. El grupo de facturación se encuentra en una parte diferente de la organización, y quiere flexibilidad para implementar las directivas y los procedimientos que satisfagan sus necesidades.
Solución de arquitectura
Relecloud escala su plataforma de análisis al agregar una nueva zona de aterrizaje para el grupo de facturación. Esta zona de aterrizaje proporciona un área de trabajo virtual para que el grupo de facturación implemente las soluciones de análisis que satisfagan sus necesidades empresariales. Al tener una zona de aterrizaje separada de los demás recursos de la organización, el grupo de facturación puede implementar sus propias directivas de acceso y responsabilizarse de los costos de sus servicios.
El diagrama siguiente no representa todos los servicios de Azure. El diagrama se ha simplificado para destacar los conceptos básicos de la organización de los recursos dentro de la arquitectura.
Zona de aterrizaje de la administración de datos
Un requisito clave para una implementación de análisis a escala de nube es una zona de aterrizaje de administración de datos. Esta suscripción contiene recursos que se comparten en todas las zonas de aterrizaje, incluidos los componentes de redes compartidos, como un firewall o zonas DNS privadas. La zona de aterrizaje de administración de datos también incluye recursos para la gobernanza de datos y nube, como Azure Policy y Azure Purview.
Relecloud creó una zona de aterrizaje de administración de datos cuando implementó la solución de análisis de datos para el grupo de operaciones. Cuando el grupo de facturación se une a la plataforma, usan la misma zona de aterrizaje de administración de datos para compartir los recursos comunes con el grupo de operaciones.
Zona de aterrizaje de datos de operaciones
El grupo de operaciones tiene las siguientes soluciones en su zona de aterrizaje de datos.
Aplicaciones de datos de operaciones
El equipo ha creado una aplicación de datos alineada con el origen que usa trabajos de Apache Spark en Azure Databricks para ingerir los datos de telemetría del servicio y almacenarlos en una cuenta de Azure Data Lake Storage.
Este proceso copia los datos del sistema de origen tal y como están, pero no los transforman. Los analistas pueden trabajar con los datos copiados en la plataforma de análisis sin sobrecargar el sistema de origen. En lugar de crear una implementación dedicada para esta aplicación de datos, el equipo de operaciones utiliza el área de trabajo de Databricks del grupo de recursos compartido Ingesta y procesamiento.
Los clientes de Relecloud pueden crear cuentas en la nube para administrar los recursos y la facturación en sus nubes privadas. Cada cliente puede tener varias cuentas. El equipo de análisis ha creado una aplicación de datos para importar los datos de la cuenta en la nube. Dado que el volumen y la frecuencia de los datos son mucho menores que en los datos de telemetría, el equipo no necesita usar trabajos de Spark. En su lugar, crearon canalizaciones de Azure Data Factory para copiar los datos.
Azure Database for MySQL actúa como metastore de Hive y Azure SQL Database es el metastore de Azure Data Factory.
Productos de datos de operaciones
Los analistas de Relecloud obtienen valor de los datos de las aplicaciones de datos alineadas con el origen mediante la creación de nuevas aplicaciones de datos alineadas con el consumidor. Una de estas aplicaciones de datos alineadas con el consumidor es un modelo de Recomendaciones de servicios en la nube. Los científicos de datos de Relecloud han utilizado Azure Machine Learning para crear un modelo que examina los servicios que consume una cuenta en la nube y sugiere servicios relacionados que pueden ser útiles. El equipo implementa este modelo en un clúster de Azure Kubernetes Service (AKS) que se ejecuta en la zona de aterrizaje y se administra mediante Azure Machine Learning. Las aplicaciones que se ejecutan fuera del análisis a escala de nube pueden llamar al punto de conexión de AKS para obtener recomendaciones.
Después de que el equipo de facturación cree su zona de aterrizaje, el equipo de operaciones crea el nuevo producto de datos que solicite el equipo de administración. El equipo de administración quiere saber cuánto ingresos genera la aplicación de datos Recomendación de servicios en la nube. El nuevo producto de datos Ingresos de las recomendaciones usa Azure Synapse Analytics para combinar datos de los productos Recomendación de servicios en la nube e Ingresos por servicio en un nuevo producto de datos. Los analistas de negocios pueden conectarse a Azure Synapse con Microsoft Power BI para obtener y comunicar información de este nuevo producto de datos.
Zona de aterrizaje de datos de facturación
El grupo de facturación usaba un sistema local para impulsar sus análisis, pero a medida que el volumen de datos creció y la empresa dependía más de su trabajo, el sistema no podía mantener el ritmo. El grupo moderniza su plataforma mediante el traslado a la nube.
El grupo de facturación no comparte una zona de aterrizaje con el grupo de operaciones, sino que obtiene su propia zona de aterrizaje donde tiene la libertad de crear la plataforma que mejor se adapte a sus necesidades. La nueva zona de aterrizaje está conectada a la zona de aterrizaje de administración de datos y a todas las demás zonas de aterrizaje de datos mediante el emparejamiento de red virtual. Este mecanismo permite que los datos se compartan de forma segura mediante la red interna de Azure.
Aplicaciones de datos de facturación
Para colocar los datos de los sistemas existentes en la plataforma de análisis, el grupo de facturación crea dos aplicaciones de datos. La primera aplicación ingiere los datos de los clientes, incluida la lista completa de clientes y todos los datos relacionados, como direcciones de cliente, ubicaciones y asignaciones de vendedores. La segunda aplicación importa el historial de facturas de la empresa, que incluye todos los cargos de facturación a los clientes y los datos de pago relacionados.
Ambas aplicaciones disponen de tecnología de canalizaciones en el área de trabajo compartida de Azure Synapse. Cada aplicación tiene un grupo de proceso dedicado para facilitar la contabilidad de costos y los límites de seguridad. Dado que las aplicaciones se pueden implementar completamente con recursos compartidos, el grupo de facturación no tiene que crear una implementación para estas aplicaciones de datos.
Productos de datos de facturación
Los analistas de facturación crean un nuevo producto de datos llamado Ingresos por servicio que analiza cuántos ingresos genera cada servicio en la nube para Relecloud. Este producto se basa en los datos de la ingesta de facturas. El producto también se conecta a la zona de aterrizaje de operaciones y lee los datos de uso del servicio. Al igual que las aplicaciones de datos, el producto de datos también se basa en el área de trabajo compartida de Azure Synapse.
Plantillas de implementación
Para implementar las arquitecturas, use las siguientes plantillas de implementación de referencia de la zona de aterrizaje de administración de datos y de la zona de aterrizaje de datos:
Use las plantillas siguientes para implementar las otras aplicaciones de datos y productos de datos en las zonas de aterrizaje de datos de operaciones y facturación de Relecloud:
Nombre | Zona de aterrizaje de datos | Tipo | Plantilla |
---|---|---|---|
Cuentas en la nube | Operations | Aplicación de datos | Plantilla por lotes de productos de datos |
Ingresos de las recomendaciones | Operations | Producto de datos | Plantilla por lotes de productos de datos |
Recomendaciones de servicios en la nube | Operations | Aplicación de datos | Plantilla de análisis de productos de datos |
Ingresos por servicio | Facturación | Producto de datos | Plantilla por lotes de productos de datos |
Importante
No es necesario que Relecloud implemente todo lo que hay en las plantillas de implementación de referencia anteriores para satisfacer sus necesidades. Las plantillas requieren cierto nivel de personalización. Quite los servicios que no necesite de las plantillas antes de la implementación.
Pasos siguientes
Continúe con el Escenario de Lamna Healthcare para la analítica a escala de la nube en Azure.
Para más información, consulte los siguientes artículos.