Creación de una arquitectura de análisis moderna mediante Azure Databricks

Azure Databricks

Microsoft Fabric

Power BI

Azure Data Lake Storage

Ideas de solución

En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales de una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.

En esta solución se describen los principios clave y los componentes de las arquitecturas de datos modernas. Azure Databricks constituye el núcleo de la solución. Esta plataforma funciona perfectamente con otros servicios, como Azure Data Lake Storage, Microsoft Fabric y Power BI.

Apache® y Apache Spark™ son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos y otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.

Architecture

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

Azure Databricks ingiere datos de streaming sin procesar de Azure Event Hubs mediante Delta Live Tables.
Fabric Data Factory carga datos por lotes sin procesar en Data Lake Storage.
Para el almacenamiento de datos:
- Data Lake Storage alberga todos los tipos de datos, incluidos los datos estructurados, no estructurados y parcialmente estructurados. También almacena datos por lotes y de streaming.
- Delta Lake constituye la capa mantenida del lago de datos. Almacena los datos refinados en un formato de código abierto.
- Azure Databricks funciona bien con una arquitectura en medallón que organiza los datos en capas:
  - Capa de bronce: contiene datos sin procesar.
  - Capa de plata: contiene datos limpios y filtrados.
  - Capa gold: almacena los datos agregados que son útiles para el análisis empresarial.
La plataforma analítica ingiere datos de los distintos orígenes de procesamiento por lotes y streaming. Los científicos de datos usan estos datos para tareas como:
- Preparación de datos
- Exploración de datos
- Preparación de modelos
- Entrenamiento de modelos
MLflow administra el seguimiento de parámetros, métricas y modelos en ejecuciones de código de ciencia de datos. Las posibilidades de codificación son flexibles:
- El código puede estar en SQL, Python, R y Scala.
- El código puede usar bibliotecas y marcos de código abierto populares, como Koalas, Pandas y scikit-learn, que están preinstalados y optimizados.
- Los usuarios pueden optimizar el rendimiento y el costo mediante opciones de proceso de un solo nodo y varios nodos.
Los modelos de Machine Learning están disponibles en los siguientes formatos:
- Azure Databricks almacena información sobre los modelos en el registro de modelos de MLflow. El registro hace que los modelos estén disponibles mediante las API REST, el procesamiento por lotes y streaming.
- La solución también puede implementar modelos en servicios web de Azure Machine Learning o Azure Kubernetes Service (AKS).
Los servicios que funcionan con los datos se conectan a un único origen de datos subyacente para ayudar a garantizar la coherencia. Por ejemplo, puede ejecutar consultas SQL en el lago de datos mediante azure Databricks SQL Warehouses. Este servicio:
- Proporciona un editor de consultas y un catálogo, el historial de consultas, el conjunto de paneles básico y alertas.
- Usa la seguridad integrada que incluye permisos de nivel de fila y permisos de nivel de columna.
- Usa un motor Delta con tecnología Photon para mejorar el rendimiento.
Puede reflejar los conjuntos de datos gold fuera del catálogo de Unity de Azure Databricks en Fabric. Use creación de reflejo de Azure Databricks en Fabric para integrar fácilmente sin necesidad de mover o replicar datos.
Power BI genera informes y paneles analíticos e históricos a partir de la plataforma de datos unificada. Este servicio usa las siguientes características cuando funciona con Azure Databricks:
- Un conector de Azure Databricks integrado para visualizar los datos subyacentes.
- Conectividad optimizada de bases de datos de Java y controladores de conectividad de bases de datos abiertas.
- Puede usar Direct Lake con la creación de reflejo de Azure Databricks en Fabric para cargar los modelos semánticos de Power BI para consultas de mayor rendimiento.
La solución usa el catálogo de Unity y los servicios de Azure para la colaboración, el rendimiento, la confiabilidad, la gobernanza y la seguridad:
- El catálogo de Unity de Azure Databricks proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks.
- Microsoft Purview proporciona servicios de detección de datos, clasificación de datos confidenciales e información de gobernanza para todo el patrimonio de datos.
- Azure DevOps ofrece integración continua e implementación continua (CI/CD) y otras características de control de versiones integradas.
- Azure Key Vault le ayuda a administrar de forma segura secretos, claves y certificados.
- El aprovisionamiento de Microsoft Entra ID y system for Cross-domain Identity Management (SCIM) proporcionan el inicio de sesión único para usuarios y grupos de Azure Databricks. Azure Databricks admite el aprovisionamiento automatizado de usuarios con el identificador entra de Microsoft para:
  - Cree nuevos usuarios y grupos.
  - Asigne a cada usuario un nivel de acceso.
  - Quite los usuarios y deniegue el acceso.
- Azure Monitor recopila y analiza la telemetría de recursos de Azure. Mediante la identificación proactiva de problemas, este servicio maximiza el rendimiento y la confiabilidad.
- Microsoft Cost Management proporciona servicios de gobernanza financiera para cargas de trabajo de Azure.

Componentes

Esta solución usa los siguientes componentes.

Componentes principales

azure Databricks es una plataforma de análisis de datos que usa clústeres de Spark para procesar flujos de datos grandes. Limpia y transforma datos no estructurados y los combina con datos estructurados. También puede entrenar e implementar modelos de aprendizaje automático. En esta arquitectura, Azure Databricks actúa como herramienta central para la ingesta, procesamiento y servicio de datos. Proporciona un entorno unificado para administrar todo el ciclo de vida de los datos.
azure Databricks SQL Warehouses son recursos de proceso que puede usar para consultar y explorar datos en Azure Databricks. En esta arquitectura, puede usar puntos de conexión de SQL para conectarse directamente a los datos de Power BI.
Azure Databricks Delta Live Tables es un marco declarativo para crear canalizaciones de procesamiento de datos confiables, fáciles de mantener y probar. En esta arquitectura, Delta Live Tables le ayuda a definir transformaciones para realizar en los datos. También le ayuda a administrar la orquestación de tareas, la administración de clústeres, la supervisión, la calidad de los datos y el control de errores en Azure Databricks.
Microsoft Fabric es una plataforma de datos y análisis de un extremo a otro para organizaciones que necesitan una solución unificada. La plataforma proporciona servicios como Ingeniería de datos, Data Factory, Ciencia de datos, Real-Time Inteligencia, Almacenamiento de datos y Bases de datos. Esta arquitectura refleja las tablas del catálogo de Unity en Fabric y usa Direct Lake en Power BI para mejorar el rendimiento.
Data Factory en Microsoft Fabric es una plataforma de integración de datos moderna que puede usar para ingerir, preparar y transformar datos de un amplio conjunto de orígenes de datos en Fabric. Esta arquitectura usa conectores integrados en varios orígenes de datos para la ingesta rápida en Data Lake Storage o OneLake. Azure Databricks más adelante recupera y transforma aún más los datos por lotes.
event Hubs es una plataforma de streaming de macrodatos totalmente administrada. Como plataforma como servicio, proporciona funcionalidades de ingesta de eventos. Esta arquitectura usa Event Hubs para transmitir datos. Azure Databricks puede conectarse a estos datos y procesarlos mediante Spark Streaming o Delta Live Tables.
data Lake Storage es un lago de datos escalable y seguro para el análisis de alto rendimiento. Controla varios petabytes de datos y admite cientos de gigabits de rendimiento. Data Lake Storage puede almacenar datos estructurados, parcialmente estructurados y no estructurados. Esta arquitectura usa Data Lake Storage para almacenar datos por lotes y de streaming.
Machine Learning es un entorno basado en la nube que le ayuda a crear, implementar y administrar soluciones de análisis predictivo. Con estos modelos, puede predecir el comportamiento, los resultados y las tendencias. En esta arquitectura, Machine Learning usa datos que Azure Databricks transforma para entrenar e inferir modelos.
AKS es un servicio de Kubernetes totalmente administrado, de alta disponibilidad y seguro. AKS facilita la implementación y la administración de aplicaciones contenedorizadas. En esta arquitectura, AKS hospeda modelos de aprendizaje automático en un entorno en contenedor para la inferencia escalable.
Delta Lake es una capa de almacenamiento que usa un formato de archivo abierto. Esta capa se ejecuta sobre soluciones de almacenamiento en la nube como Data Lake Storage. Delta Lake admite el control de versiones, la reversión y las transacciones de datos para actualizar, eliminar y combinar datos. En esta arquitectura, Delta Lake funciona como el formato de archivo principal para escribir y leer datos de Data Lake Storage.
MLflow es una plataforma de código abierto para administrar el ciclo de vida del aprendizaje automático. Sus componentes supervisan los modelos de aprendizaje automático durante el entrenamiento y el funcionamiento. En esta arquitectura, similar a Machine Learning, puede usar MLflow en Azure Databricks para administrar el ciclo de vida del aprendizaje automático. Entrene e infiere modelos mediante los datos del Catálogo de Unity que transformó en Azure Databricks.

Componentes de informes y gobernanza

azure Databricks Unity Catalog proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks. En esta arquitectura, Unity Catalog funciona como la herramienta principal de Azure Databricks para administrar y proteger el acceso a los datos.
Power BI es una colección de servicios y aplicaciones de software. Estos servicios crean y comparten informes que conectan y visualizan orígenes de datos no relacionados. Junto con Azure Databricks, Power BI puede proporcionar la determinación de la causa principal y el análisis de datos sin procesar. Esta arquitectura usa Power BI para crear paneles e informes que proporcionan información sobre los datos que Azure Databricks y Fabric procesan.
Microsoft Purview administra datos locales, de varias nubes y de software como servicio (SaaS). Este servicio de gobernanza mantiene mapas panorámicos de los datos. Sus características incluyen detección automatizada de datos, clasificación de datos confidenciales y linaje de datos. Esta arquitectura usa Microsoft Purview para examinar y realizar un seguimiento de los datos que se ingieren en unity Catalog, Fabric, Power BI y Data Lake Storage.
Azure DevOps es una plataforma de orquestación de DevOps. Este SaaS proporciona herramientas y entornos para compilar, implementar y colaborar en aplicaciones. Esta arquitectura usa Azure DevOps para automatizar la implementación de la infraestructura de Azure. También puede usar GitHub para la automatización y el control de versiones del código de Azure Databricks para mejorar la colaboración, el seguimiento de cambios y la integración con canalizaciones de CI/CD.
Key Vault almacena y controla el acceso a secretos, como tokens, contraseñas y claves de API. Key Vault también crea y controla claves de cifrado y administra certificados de seguridad. Esta arquitectura usa Key Vault para almacenar claves de firma de acceso compartido desde Data Lake Storage. Estas claves se usan después en Azure Databricks y en otros servicios para la autenticación.
Microsoft Entra ID ofrece un servicio de administración de identidades y accesos basado en la nube. Estas características proporcionan a los usuarios una manera de iniciar sesión y acceder a los recursos. Esta arquitectura usa microsoft Entra ID para autenticar y autorizar usuarios y servicios en Azure.
SCIM permite configurar el aprovisionamiento en la cuenta de Azure Databricks mediante el identificador de Entra de Microsoft. Esta arquitectura usa SCIM para administrar usuarios que acceden a áreas de trabajo de Azure Databricks.
azure Monitor recopila y analiza datos en entornos y recursos de Azure. Estos datos incluyen la telemetría de aplicaciones, como métricas de rendimiento y registros de actividad. Esta arquitectura usa Azure Monitor para supervisar el estado de los recursos de proceso en Azure Databricks y Machine Learning y otros componentes que envían registros a Azure Monitor.
Cost Management le ayuda a administrar el gasto en la nube. Mediante el uso de presupuestos y recomendaciones, este servicio organiza los gastos y muestra cómo reducir los costos. Esta arquitectura usa Cost Management para ayudar a supervisar y controlar el costo de toda la solución.

Detalles del escenario

Arquitecturas de datos modernas:

Unifican las cargas de trabajo de datos, análisis e inteligencia artificial.
Funcionan de manera eficaz y confiable a cualquier escala.
Proporcionan información detallada a través de paneles de análisis, informes operativos o análisis avanzados.

Esta solución describe una arquitectura de datos moderna que logra estos objetivos. Azure Databricks constituye el núcleo de la solución. Esta plataforma funciona perfectamente con otros servicios. Juntos, estos servicios proporcionan una solución que es:

Simple: el análisis unificado, la ciencia de datos y el aprendizaje automático simplifican la arquitectura de datos.
Abierta: la solución admite código fuente abierto, estándares abiertos y marcos abiertos. También funciona con entornos de desarrollo integrado (IDE), bibliotecas y lenguajes de programación conocidos. Mediante conectores y API nativos, la solución también funciona con una amplia gama de otros servicios.
Colaboración: ingenieros de datos, científicos de datos y analistas trabajan juntos con esta solución. Pueden usar cuadernos de colaboración, IDE, paneles y otras herramientas para acceder a los datos subyacentes comunes y analizarlos.

Posibles casos de uso

Esta solución está inspirada en el sistema que creó Swiss Re Group para su división Property & Casualty Reinsurance. Además del sector de seguros, cualquier área que funcione con macrodatos o aprendizaje automático también puede beneficiarse de esta solución. Algunos ejemplos son:

El sector energético.
Comercio minorista y comercio electrónico.
Banca y finanzas.
Medicina y atención sanitaria.

Pasos siguientes

Para obtener información sobre las soluciones relacionadas, consulte las siguientes guías y arquitecturas.

Compartir a través de

Creación de una arquitectura de análisis moderna mediante Azure Databricks

Architecture

Flujo de datos

Componentes

Componentes principales

Componentes de informes y gobernanza

Detalles del escenario

Posibles casos de uso

Pasos siguientes

Comentarios

Recursos adicionales

Compartir a través de

Creación de una arquitectura de análisis moderna mediante Azure Databricks

Architecture

Flujo de datos

Componentes

Componentes principales

Componentes de informes y gobernanza

Detalles del escenario

Posibles casos de uso

Pasos siguientes

Recursos relacionados

Guías de arquitectura relacionadas

Arquitecturas relacionadas

Comentarios

Recursos adicionales