Varias zonas de datos para el análisis a escala en la nube en Azure
Esta arquitectura de referencia es para las organizaciones que han implementado una versión básica del análisis a escala de la nube y ahora están listas para hospedar nuevas unidades de negocio para ayudar a modernizar sus operaciones de análisis. En este escenario más complejo se usan varias zonas de aterrizaje, aplicaciones de datos y productos de datos.
Apache Hive y el logotipo de Hive son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en Los Estados Unidos y/o en otros países. El uso de estas marcas no implica ninguna aprobación de The Apache Software Foundation.
Enunciado del problema
Relecloud, la empresa ficticia de este ejemplo, es un proveedor de nube privada que ofrece recursos informáticos y de almacenamiento compartidos a organizaciones globales. Aunque Relecloud proporciona recursos de proceso, no quieren restringir su plataforma con sus propias operaciones internas. Por lo tanto, se basan en Microsoft Azure para sus necesidades informáticas internas.
Los analistas de datos del grupo de operaciones usan datos de telemetría de servicios en la nube para comprender cómo usan sus clientes la plataforma. Un equipo independiente de analistas del grupo de facturación estudia los datos de facturación para obtener información sobre qué servicios generan más ingresos.
El último trimestre, el equipo de operaciones modernizó su plataforma de análisis mediante la migración a Azure. Un objetivo en la implementación de análisis a escala en la nube era maximizar el potencial de escalar la plataforma y agregar nuevas cargas de trabajo organizativas.
En la actualidad, el grupo de facturación ha superado la solución de análisis actual. El volumen de facturas que se van a analizar es demasiado grande para su servidor local. El equipo decide seguir el ejemplo del grupo de operaciones y modernizar su plataforma de análisis de datos en Azure.
Los analistas del grupo de facturación tienen diferentes aptitudes que los analistas del grupo de operaciones. Los analistas de facturación no quieren verse obligados a usar las mismas herramientas que el departamento de operaciones. El grupo de facturación está en una parte diferente de la organización y quiere la flexibilidad de implementar las directivas y procedimientos que satisfacen sus necesidades.
Solución arquitectónica
Relecloud escala su plataforma de análisis agregando una nueva zona de aterrizaje para el grupo de facturación. Esta zona de aterrizaje proporciona un área de trabajo virtual para que el grupo de facturación implemente las soluciones de análisis que satisfacen sus necesidades empresariales. Al tener una zona de aterrizaje independiente de los demás recursos de la organización, el grupo de facturación puede implementar sus propias directivas de acceso y tener en cuenta los costos de sus servicios.
El diagrama siguiente no representa todos los servicios de Azure. El diagrama se simplifica para resaltar los conceptos básicos de la organización de recursos dentro de la arquitectura.
Zona de aterrizaje de administración de datos
Un requisito clave para una implementación de análisis a escala en la nube es una zona de aterrizaje de administración de datos. Esta suscripción contiene recursos que se comparten en todas las zonas de aterrizaje, incluidos los componentes de red compartidos, como un firewall o zonas DNS privadas. También incluye recursos para los datos y la gobernanza en la nube. Microsoft Purview y el Catálogo Unity de Databricks se han implementado como servicios a nivel de inquilino.
Relecloud creó una zona de aterrizaje de administración de datos cuando implementaron la solución de análisis de datos para el grupo de operaciones. Cuando el grupo de facturación se une a la plataforma, usan la misma zona de aterrizaje de administración de datos para compartir recursos comunes con el grupo de operaciones.
Zona de aterrizaje de datos de operaciones
El grupo de operaciones tiene las siguientes soluciones en su zona de aterrizaje de datos.
Aplicaciones de datos de operaciones
El equipo ha creado una aplicación de datos alineada con el origen que usa trabajos de Apache Spark en Azure Databricks para ingerir datos de telemetría del servicio y almacenarlos en una cuenta de Azure Data Lake Storage.
Este proceso copia los datos as-is desde el sistema de origen, pero no lo transforma. Los analistas pueden trabajar con los datos copiados en la plataforma de análisis sin sobrecargar el sistema de origen. En lugar de crear una implementación dedicada para esta aplicación de datos, el equipo de operaciones usa el área de trabajo de Databricks en el grupo de recursos compartido Ingesta & Procesamiento.
Los clientes de Relecloud pueden crear cuentas en la nube para administrar los recursos y la facturación en sus nubes privadas. Cada cliente puede tener varias cuentas. El equipo de análisis ha creado una aplicación de datos para importar los datos de la cuenta en la nube. Dado que el volumen y la frecuencia de los datos son mucho más bajos que para los datos de telemetría, el equipo no necesita usar trabajos de Spark. En su lugar, crearon canalizaciones de Azure Data Factory para copiar los datos.
Azure Database for MySQL actúa como metastore de Hive y Azure SQL Database es el metastore de Azure Data Factory.
Productos de datos de operaciones
Los analistas de Relecloud obtienen valor de los datos de las aplicaciones de datos alineadas con el origen mediante la creación de nuevas aplicaciones de datos alineadas con el consumidor. Una de estas aplicaciones de datos alineadas con el consumidor es un modelo de recomendación de servicio en la nube. Los científicos de datos de Relecloud usaron Azure Machine Learning para crear un modelo que examine los servicios que consume una cuenta en la nube y sugiere servicios relacionados que podrían ser útiles. El equipo implementa este modelo en un clúster de Azure Kubernetes Service (AKS) que se ejecuta en la zona de aterrizaje y se administra mediante Azure Machine Learning. Las aplicaciones que se ejecutan fuera del análisis a escala en la nube pueden llamar al punto de conexión de AKS para obtener recomendaciones.
Después de que el equipo de facturación cree su zona de aterrizaje, el equipo de operaciones crea un nuevo producto de datos que solicita su equipo de administración. El equipo de administración quiere saber cuántos ingresos genera la aplicación de datos del recomendador de servicio en la nube . El nuevo producto de datos Ingresos de las recomendaciones usa Azure Synapse Analytics para combinar datos de Recomendación de servicios en la nube e Ingresos por servicio en un nuevo producto de datos. Los analistas de negocios pueden conectarse a Azure Synapse con Microsoft Power BI para buscar e informar de información de este nuevo producto de datos.
Zona de aterrizaje de datos de facturación
El grupo de facturación usaba un sistema local para impulsar sus análisis, pero a medida que el volumen de datos creció y la empresa dependía más de su trabajo, el sistema no podía mantener el ritmo. El grupo moderniza su plataforma trasladándose a la nube.
El grupo de facturación no comparte una zona de aterrizaje con el grupo de operaciones, pero obtiene su propia zona de aterrizaje donde tienen la libertad de crear la plataforma que mejor se adapte a sus necesidades. La nueva zona de aterrizaje está conectada a la zona de aterrizaje de administración de datos y a todas las demás zonas de aterrizaje de datos con emparejamiento de red virtual. Este mecanismo permite que los datos se compartan de forma segura a través de la red interna de Azure.
Aplicaciones de datos de facturación
Para obtener datos de sistemas existentes en la plataforma de análisis, el grupo de facturación crea dos aplicaciones de datos. La primera aplicación ingiere los datos del cliente, incluida la lista completa de clientes y todos los datos relacionados, como direcciones de cliente, ubicaciones y asignaciones de vendedores. La segunda aplicación importa el historial de facturas de la empresa, que incluye todos los cargos de facturación a los clientes y los datos de pago relacionados.
Ambas aplicaciones están impulsadas por las canalizaciones en el espacio de trabajo compartido de Azure Synapse. Cada aplicación cuenta con un grupo de recursos de computación dedicado para facilitar la contabilidad de costos y el límite de seguridad. Dado que las aplicaciones se pueden implementar completamente con recursos compartidos, el grupo de facturación no tiene que crear una implementación para estas aplicaciones de datos.
Productos de datos de facturación
Los analistas de facturación crean un nuevo producto de datos denominado Revenue by service que analiza la cantidad de ingresos que genera cada servicio en la nube para Relecloud. Este producto se basa en los datos de la ingesta de facturas. El producto también se conecta a la zona de aterrizaje de operaciones y lee los datos de uso del servicio. Al igual que las aplicaciones de datos, el producto de datos también se basa en el área de trabajo compartida de Azure Synapse.
Pasos siguientes
Continúe con el escenario de Lamna Healthcare para un análisis seguro a escala de la nube en Azure.
Para obtener más información, consulte los artículos siguientes: