ideas de
soluciónEn este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales para una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.
En este artículo se describe cómo las pequeñas y medianas empresas (SMB) pueden combinar las inversiones existentes en Azure Databricks con una plataforma de datos de software como servicio (SaaS) totalmente administrada, como Microsoft Fabric. Las plataformas de datos saaS son soluciones de análisis de datos integrales que se integran fácilmente con herramientas como Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 y otras tecnologías de Microsoft.
Arquitectura simplificada
Descargar un archivo de Visio de esta arquitectura.
La interoperabilidad entre Azure Databricks y Microsoft Fabric proporciona una solución sólida que minimiza la fragmentación de datos al tiempo que mejora las funcionalidades analíticas.
Microsoft Fabric proporciona un lago de datos abierto y regulado, denominado OneLake, como el almacenamiento SaaS subyacente. OneLake usa el formato Delta Parquet, que es el mismo formato que usa Azure Databricks. Para acceder a los datos de Azure Databricks desde OneLake, puede usar accesos directos de OneLake en Fabric o reflejar el catálogo de Unity de Azure Databricks en Fabric. Esta integración le permite aumentar los sistemas de análisis de Azure Databricks con inteligencia artificial generativa sobre OneLake.
También puede usar el modo de lago directo en Power BI en los datos de Azure Databricks en OneLake. El modo de lago directo simplifica la capa de servicio y mejora el rendimiento del informe. OneLake admite API para Azure Data Lake Storage y almacena todos los datos tabulares en formato Delta Parquet.
Como resultado, los cuadernos de Azure Databricks pueden usar puntos de conexión de OneLake para acceder a los datos almacenados. La experiencia es la misma que el acceso a los datos a través de un almacenamiento de Microsoft Fabric. Esta integración le permite usar Fabric o Azure Databricks sin volver a dar forma a los datos.
Arquitectura
Descargar un archivo de Visio de esta arquitectura.
Flujo de datos
Azure Data Factory: Usar canalizaciones existentes de Azure Data Factory para ingerir datos estructurados y no estructurados de sistemas de origen y colocarlos en el lago de datos existente.
Microsoft Dynamics 365: Puede usar orígenes de datos de Microsoft Dynamics 365 para crear paneles de BI centralizados en conjuntos de datos aumentados mediante Azure Synapse Link o Microsoft Fabric Link. Vuelva a incorporar los datos fusionados y procesados a Microsoft Dynamics 365 y Power BI para su posterior análisis.
ingesta de datos de streaming: los datos de streaming se pueden ingerir a través de Azure Event Hubs o Azure IoT Hubs, en función de los protocolos que se usan para enviar estos mensajes.
ruta de acceso en frío: puede incorporar los datos de streaming al lago de datos centralizado para realizar análisis, almacenamiento e informes adicionales mediante Azure Databricks. Estos datos se pueden unificadar con otros orígenes de datos para el análisis por lotes.
ruta de acceso activa: los datos de streaming de se pueden analizar en tiempo real y los paneles en tiempo real se pueden crear a través de Microsoft Fabric Real-Time Intelligence.
Azure Databricks: Los cuadernos de Azure Databricks existentes se pueden usar para realizar la limpieza, la unificación y los análisis de datos como de costumbre. Considere la posibilidad de usar la arquitectura medallion como:
Bronce, que contiene datos sin procesar.
Silver, que contiene datos limpios y filtrados.
Gold, que almacena datos agregados que son útiles para el análisis empresarial.
datos dorados o un almacenamiento de datos: Para los datos dorados o un almacenamiento de datos, siga usando Azure Databricks SQL o cree una creación de reflejo del catálogo de Unity de Azure Databricks en Microsoft Fabric. Cree fácilmente paneles basados en el análisis sin servidor de datos en Fabric lakehouses sin necesidad de configurarlos mediante los modelos semánticos de Power BI que se crean automáticamente para todos los almacenes de fabric lakehouses. Fabric Data Warehouse también se puede usar como capa dorada si los requisitos analíticos requieren un proceso más rápido.
Entre las herramientas que se usan para la gobernanza, la colaboración, la seguridad, el rendimiento y la supervisión de costos se incluyen:
Detección y control
Microsoft Purview proporciona servicios de detección de datos, clasificación de datos confidenciales e información de gobernanza en todo el patrimonio de datos.
Unity Catalog proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks.
Azure DevOps proporciona integración continua e implementación continua y otras características de control de versiones integradas.
Azure Key Vault administra secretos, claves y certificados.
Microsoft Entra ID proporciona el inicio de sesión único para los usuarios de Azure Databricks. Azure Databricks admite el aprovisionamiento automatizado de usuarios con el identificador entra de Microsoft para:
Cree nuevos usuarios.
Asigne a cada usuario un nivel de acceso.
Quite los usuarios y deniegue el acceso.
Azure Monitor recopila y analiza la telemetría de recursos de Azure. Este servicio maximiza el rendimiento y la confiabilidad mediante la identificación proactiva de problemas.
Microsoft Cost Management proporciona servicios de gobernanza financiera para cargas de trabajo de Azure.
Componentes
Data Lake Storage es un servicio de almacenamiento de datos escalable diseñado para datos estructurados y no estructurados. En esta arquitectura, Data Lake Storage actúa como la infraestructura subyacente de Delta Lake. Es la capa de almacenamiento principal para los datos sin procesar y procesados, lo que permite la ingesta, el almacenamiento y la recuperación de datos eficaces para cargas de trabajo de análisis y aprendizaje automático.
azure Data Factory es un servicio de integración de datos basado en la nube que organiza y automatiza el movimiento y la transformación de datos. Azure Data Factory se usa para crear, programar y organizar canalizaciones de datos que mueven y transforman datos en varios almacenes de datos y servicios. Ayuda a garantizar un flujo de datos y una integración sin problemas.
event Hubs es un servicio de ingesta de datos en tiempo real que puede procesar millones de eventos por segundo desde cualquier origen. En esta arquitectura, Event Hubs captura y transmite grandes volúmenes de datos de varios orígenes para habilitar el análisis en tiempo real y el procesamiento controlado por eventos.
Azure IoT Hub es un servicio administrado que mejora la seguridad y la comunicación confiable entre dispositivos IoT y la nube. Azure IoT Hub facilita la ingesta, el procesamiento y el análisis de datos de telemetría de dispositivos IoT para proporcionar información en tiempo real y habilitar la supervisión remota.
microsoft Dataverse es una plataforma de datos escalable que las organizaciones pueden usar para ayudar a almacenar y administrar de forma segura los datos que usan las aplicaciones empresariales. En esta arquitectura, se hace referencia a él como un origen de datos potencial.
azure Synapse Link conecta aplicaciones de Dynamics con Azure Synapse Analytics o Data Lake Storage. En esta arquitectura, se usa para copiar datos casi en tiempo real desde Dataverse a Data Lake Storage.
Microsoft Fabric Link conecta aplicaciones de Dynamics a Microsoft Fabric. En esta arquitectura, se usa para replicar datos de Dataverse en Microsoft Fabric casi en tiempo real.
azure Databricks es una plataforma de análisis basada en Apache Spark. Azure Databricks se usa para tareas de procesamiento de macrodatos, aprendizaje automático e ingeniería de datos. Esta plataforma proporciona un área de trabajo colaborativa para científicos de datos e ingenieros.
Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones ACID a Apache Spark y cargas de trabajo de macrodatos. Delta Lake se usa para proporcionar esta funcionalidad al almacenamiento del lago de datos.
azure Databricks SQL es un servicio de análisis basado en SQL que permite a los usuarios ejecutar consultas SQL en datos almacenados en Azure Databricks. En esta arquitectura, Azure Databricks SQL proporciona una eficaz interfaz SQL para consultar y analizar datos, lo que permite el análisis interactivo y ad hoc.
IA y Machine Learning abarcan una gama de tecnologías y servicios que permiten el desarrollo, la implementación y la administración de modelos de aprendizaje automático. Los servicios de inteligencia artificial y Machine Learning se usan para compilar, entrenar e implementar modelos predictivos. Esta funcionalidad permite la toma de decisiones controlada por datos.
unity Catalog es una solución de gobernanza de datos que proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Databricks. El catálogo de Unity ayuda a garantizar la gobernanza y la seguridad de los datos al proporcionar controles de acceso específicos, auditoría y seguimiento del linaje de datos.
arquitectura del lago Medallion es un patrón de arquitectura de datos que organiza los datos en capas de bronce, plata y oro para un procesamiento y análisis de datos eficientes. Este patrón de arquitectura se implementa aquí mediante Data Lake Storage, Delta Lake y Azure Databricks, lo que permite el procesamiento y el análisis de datos escalables y eficaces.
Microsoft Fabric es una plataforma de datos completa que integra varios servicios de datos y herramientas para proporcionar una experiencia de análisis y administración de datos sin problemas. Microsoft Fabric conecta e integra datos de varios orígenes, lo que permite un análisis y conclusiones completos de datos en toda la organización.
Real-Time Intelligence es una funcionalidad de procesamiento de datos que permite a las organizaciones ingerir, procesar y analizar datos en tiempo real. Real-Time Intelligence procesa el streaming de datos de varios orígenes. Proporciona información en tiempo real y habilita acciones automatizadas basadas en patrones de datos.
accesos directos de OneLake crear un vínculo local entre OneLake y otro origen de datos. Los accesos directos de OneLake se usan para simplificar el acceso a los datos y la administración, lo que proporciona una vista unificada de los datos en toda la organización.
Power BI es un servicio de análisis empresarial que proporciona visualizaciones interactivas y funcionalidades de inteligencia empresarial. Tiene una interfaz sencilla para que los usuarios creen sus propios informes y paneles interactivos. Estas herramientas permiten la visualización y la información de datos para los usuarios empresariales.
microsoft Purview es un servicio unificado de gobernanza de datos que ayuda a las organizaciones a administrar y controlar sus datos en varios orígenes. Microsoft Purview proporciona funcionalidades de catalogación de datos, seguimiento de linaje y gobernanza de datos. Estas características ayudan a garantizar el cumplimiento y la seguridad de los datos en toda la organización.
- Conectar y administrar el catálogo de Unity de Azure Databricks: puede integrar El catálogo de Unity en Purview para acceder a los metadatos del catálogo de Unity desde Purview.
microsoft Entra ID es una solución de administración de identidades y acceso basada en la nube que ayuda a garantizar inicios de sesión seguros y acceso a recursos como Microsoft 365, Azure y otras aplicaciones SaaS. En esta arquitectura, Microsoft Entra ID proporciona administración segura de identidades y acceso para los recursos de Azure. Esta característica permite inicios de sesión seguros, administra identidades de usuario y ayuda a garantizar que el acceso a los datos y los recursos esté autorizado.
Microsoft Cost Management es un conjunto de herramientas de FinOps que las organizaciones pueden usar para analizar, supervisar y optimizar los costos de Microsoft Cloud. Estas herramientas proporcionan gobernanza financiera sobre los recursos de Azure en esta arquitectura.
key Vault es un servicio en la nube que almacena y administra secretos, como claves de API, contraseñas, certificados y claves criptográficas. Este servicio permite a los usuarios y aplicaciones acceder a estos secretos de forma segura. Al almacenar las claves y los secretos en Key Vault, puede administrarlas en un solo lugar. En esta arquitectura, Azure Databricks puede recuperar secretos de Key Vault para autenticar y acceder a Data Lake Storage. Este proceso ayuda a garantizar una integración segura y sin problemas entre estos servicios.
azure Monitor es un servicio de supervisión completo que proporciona observabilidad de pila completa para aplicaciones, infraestructura y redes. Azure Monitor permite a los usuarios recopilar, analizar y actuar sobre los datos de telemetría de sus entornos de Azure y locales para identificar de forma proactiva problemas y maximizar el rendimiento y la confiabilidad.
Azure DevOps es un conjunto de herramientas de desarrollo que admiten una cultura colaborativa y procesos simplificados. Estas herramientas permiten a los desarrolladores, administradores de proyectos y colaboradores desarrollar software de forma más eficaz. Azure DevOps proporciona características integradas, como Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans y Azure Artifacts. Puede acceder a estas características a través de un explorador web o un cliente de entorno de desarrollo integrado.
gitHub es un servicio de hospedaje de repositorios git basado en la nube que simplifica el control de versiones y la colaboración para los desarrolladores. Permite a los usuarios y equipos almacenar y administrar su código, realizar un seguimiento de los cambios y colaborar en proyectos mediante Git. La interfaz de GitHub fácil de usar hace que Git sea accesible para los codificadores de todos los niveles de aptitud. Puede usar Azure DevOps y GitHub juntos para implementar prácticas de DevOps. Estas prácticas aplican la automatización y el cumplimiento en las canalizaciones de desarrollo e implementación de cargas de trabajo para Azure Data Factory, Azure Databricks y Microsoft Fabric.
Alternativas
Para crear un entorno independiente de Microsoft Fabric, consulte Greenfield lakehouse en Microsoft Fabric.
Para migrar un entorno de análisis sql local a Microsoft Fabric, consulte almacenamientos de datos modernos para pequeñas y medianas empresas.
Alternativas de servicio dentro de esta arquitectura
de ingesta de batch de
- Opcionalmente, use canalización de datos de Fabric para la integración de datos en lugar de canalizaciones de Data Factory. La elección depende de varios factores. Para obtener más información, consulte Obtención de Azure Data Factory a Data Factory en Microsoft Fabric.
de ingesta de Microsoft Dynamics 365
Si usa Azure Data Lake como almacenamiento de Data Lake y quiere ingerir datos de Dataverse, use Azure Synapse Link para Dataverse con Azure Data Lake. Para Dynamics Finance and Operations, consulte FnO Azure Synapse Link for Dataverse.
Si usa Microsoft Fabric Lakehouse como almacenamiento del lago de datos, consulte Fabric Link.
de ingesta de datos de streaming
- La decisión entre Azure IoT y Event Hubs depende del origen de los datos de streaming, tanto si se necesita la clonación como la comunicación bidireccional con los dispositivos de informes y los protocolos necesarios. Para más información, consulte Comparación de IoT Hub y Event Hubs.
Lakehouse
- Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos unificada para administrar y analizar datos estructurados y no estructurados en un formato abierto que usa principalmente archivos Delta Parquet. Admite dos tipos de almacenamiento. Estos tipos de almacenamiento son tablas administradas como CSV, Parquet o Delta y archivos no administrados. Las tablas administradas se reconocen automáticamente. Los archivos no administrados requieren la creación explícita de tablas. La plataforma permite transformaciones de datos a través de puntos de conexión de Spark o SQL y se integra sin problemas con otros componentes de Microsoft Fabric. Esta integración sin problemas permite el uso compartido de datos sin duplicación. Este concepto se alinea con la arquitectura de medallion común que se usa en cargas de trabajo analíticas. Para obtener más información, consulte Lakehouse en Microsoft Fabric.
de análisis en tiempo real
azure Databricks
- Si tiene una solución de Azure Databricks existente, es posible que quiera seguir usando Structured Streaming para el análisis en tiempo real. Para obtener más información, consulte Streaming en Databricks.
microsoft Fabric
Si ha usado otros servicios de Azure para análisis en tiempo real en el pasado o no tiene ninguna solución de análisis en tiempo real existente, consulte Fabric Real-time Intelligence versus Azure Streaming Solutions.
El streaming estructurado de Microsoft Fabric usa Spark Structured Streaming para procesar e ingerir flujos de datos en directo como tablas anexadas continuamente. El streaming estructurado admite varios orígenes de archivos, como CSV, JSON, ORC, Parquet y servicios de mensajería como Kafka y Event Hubs. Este enfoque garantiza el procesamiento de flujos escalable y tolerante a errores, que optimiza los entornos de producción de alto rendimiento. Para obtener más información, consulte microsoft Fabric Spark Structured Streaming.
de ingeniería de datos de
- Use Microsoft Fabric o Azure Databricks para escribir cuadernos de Spark. Para obtener más información, consulte Uso de cuadernos de Microsoft Fabric. Para obtener información sobre cómo se comparan los cuadernos de Fabric con lo que proporciona Azure Synapse Spark, consulte Compare Fabric Data Engineering and Azure Synapse Spark. Para más información sobre los cuadernos de Azure Databricks, consulte Introducción a los cuadernos de Databricks.
almacenamiento de datos de o de capa gold
- Puede usar Microsoft Fabric o Azure Databricks para crear un almacén basado en SQL o una capa de oro. Para obtener una guía de decisión sobre cómo elegir un almacenamiento de datos o una solución de almacenamiento de capas gold en Microsoft Fabric, consulte guía de decisión de Microsoft Fabric: elegir un almacén de datos. Para más información sobre los tipos de SQL Warehouse en Azure Databricks, consulte tipos de SQL Warehouse.
data science
Use Microsoft Fabric o Azure Databricks para funcionalidades de ciencia de datos. Para obtener más información sobre la oferta de ciencia de datos de Microsoft Fabric, consulte ¿Qué es la ciencia de datos en Microsoft Fabric?. Para más información sobre la oferta de Azure Databricks, consulte IA y aprendizaje automático en Databricks.
La ciencia de datos de Microsoft Fabric difiere de Machine Learning. Machine Learning proporciona una solución completa para administrar flujos de trabajo e implementar modelos de aprendizaje automático. La ciencia de datos de Microsoft Fabric se adapta a un escenario de análisis e informes.
power BI
Azure Databricks, integrado con Power BI, permite el procesamiento y la visualización de datos sin problemas. Para más información, consulte Conexión de Power BI a Azure Databricks.
Mediante la creación de reflejo del catálogo de Unity de Azure Databricks en Fabric, puede acceder a los datos administrados por Azure Databricks Unity Catalog directamente desde la carga de trabajo de Fabric. Para más información, consulte creación de reflejo del catálogo de Azure Databricks unity.
Cree un acceso directo desde Data Lake Storage con Delta Lake en un lago One Lake de Microsoft Fabric. Para obtener más información, consulte Integrar databricks Unity Catalog con OneLake. Puede consultar estos datos desde Power BI mediante el modo Direct Lake sin copiar datos en el servicio Power BI. Para obtener más información, consulte Direct Lake Mode.
Detalles del escenario
Las pequeñas y medianas empresas que tienen un entorno de Azure Databricks existente y, opcionalmente, una arquitectura de lakehouse pueden beneficiarse de este patrón. Actualmente usan una herramienta de extracción, transformación y carga de Azure, como Azure Data Factory y proporcionan informes en Power BI. Sin embargo, también pueden tener varios orígenes de datos que usan diferentes formatos de datos propietarios en el mismo lago de datos, lo que conduce a la duplicación de datos y a las preocupaciones sobre el bloqueo del proveedor. Esta situación puede complicar la administración de datos y aumentar la dependencia de proveedores específicos. También pueden requerir up-to-date y casi en tiempo real para la toma de decisiones y estar interesados en adoptar herramientas de inteligencia artificial en su entorno.
Microsoft Fabric es una base saaS abierta, unificada y controlada que puede usar para:
Use OneLake para almacenar, administrar y analizar datos en una sola ubicación sin preocuparse por el bloqueo del proveedor.
Innovar más rápido con integraciones con aplicaciones de Microsoft 365.
Obtenga información rápida con las ventajas del modo de lago directo de Power BI.
Beneficiarse de Copilots en cada experiencia de Microsoft Fabric.
Acelere el análisis mediante el desarrollo de modelos de inteligencia artificial en una base única.
Mantenga los datos en su lugar sin movimiento, lo que reduce el tiempo que los científicos de datos necesitan para proporcionar valor.
Colaboradores
Microsoft mantiene este artículo. Originalmente fue escrito por los siguientes colaboradores.
Autores principales:
- Bonita Rui | Arquitecto de soluciones en la nube
- Naren Jogendran | Arquitecto de soluciones en la nube
Para ver perfiles de LinkedIn no públicos, inicie sesión en LinkedIn.
Pasos siguientes
- rutas de aprendizaje de para ingenieros de datos
- Microsoft Fabric: introducción a la ruta de acceso msLearn
- Microsoft Fabric: módulos MSLearn
- Creación de una cuenta de almacenamiento para Data Lake Storage
- Inicio rápido de Event Hubs: creación de un centro de eventos mediante Azure Portal
- ¿Cuál es la arquitectura de la casa del lago medallion?
- ¿Qué es un lago en Microsoft Fabric?
Recurso relacionado
- de lagos de datos de