En este escenario de ejemplo se muestra una canalización de datos que integra grandes cantidades de datos de varios orígenes en una plataforma unificada de análisis de Azure. Este escenario concreto se basa en una solución de venta y marketing, pero los modelos de diseño son importantes para muchas industrias que requieren análisis avanzado de grandes conjuntos de datos, como la asistencia sanitaria, el comercio electrónico y la venta al por menor.
Architecture
Descargue un archivo Visio de esta arquitectura.
Flujo de datos
Los datos fluyen por la solución de la siguiente manera:
- Para cada origen de datos, las actualizaciones se exportan periódicamente a un área de almacenamiento provisional en Azure Data Lake Storage.
- Azure Data Factory carga incrementalmente los datos de Azure Data Lake Storage en tablas de almacenamiento provisional de Azure Synapse Analytics. Durante este proceso, los datos se limpian y se transforman. Polybase puede paralelizar el proceso para grandes conjuntos de datos.
- Después de cargar un nuevo lote de datos en el almacén, se actualiza un modelo tabular de Azure Analysis Services creado anteriormente. Este modelo semántico simplifica el análisis de datos y relaciones empresariales.
- Los analistas de negocios usan Microsoft Power BI para analizar los datos del almacén mediante el modelo semántico de Analysis Services.
Componentes
La empresa tiene orígenes de datos en muchas plataformas diferentes:
- SQL Server local
- Oracle local
- Azure SQL Database
- Almacenamiento de tablas de Azure
- Azure Cosmos DB
De estos orígenes de datos diferentes, los datos se cargan con varios componentes de Azure:
- Azure Data Lake Storage se usa para almacenar los datos de origen antes de cargarlos en Azure Synapse.
- Data Factory organiza la transformación de los datos almacenados provisionalmente en una estructura común en Azure Synapse. Data Factory usa Polybase al cargar los datos en Azure Synapse para conseguir el máximo rendimiento.
- Azure Synapse es un sistema distribuido para almacenar y analizar grandes conjuntos de datos. Su uso del procesamiento paralelo masivo (MPP) lo hace idóneo para ejecutar análisis de alto rendimiento. Azure Synapse puede usar PolyBase para cargar rápidamente datos de Azure Data Lake Storage.
- Analysis Services proporciona un modelo semántico para los datos. También puede aumentar el rendimiento del sistema al analizar los datos.
- Power BI es un conjunto de herramientas de análisis de negocios que sirve para analizar datos y compartir conocimientos. Power BI puede consultar un modelo semántico almacenado en Analysis Services, o bien consultar Azure Synapse directamente.
- Microsoft Entra ID autentica a los usuarios que se conectan al servidor de Analysis Services mediante Power BI. Data Factory también puede usar Microsoft Entra ID para autenticarse en Azure Synapse mediante una entidad de servicio o una identidad administrada para los recursos de Azure.
Alternativas
La canalización de ejemplo incluye varios tipos diferentes de orígenes de datos. Esta arquitectura funciona con una amplia variedad de orígenes de datos relacionales y de otro tipo.
Data Factory orquesta los flujos de trabajo para la canalización de datos. Si quiere cargar datos solo una vez o a petición, también puede usar herramientas como la copia masiva de SQL Server (bcp) y AzCopy para copiar datos en Azure Data Lake Storage. Después puede cargar los datos con PolyBase directamente en Azure Synapse.
Si tiene grandes conjuntos de datos, considere Data Lake Storage, que proporciona almacenamiento ilimitado para datos de análisis.
Azure Synapse no es una buena opción para cargas de trabajo OLTP o conjuntos de datos más pequeños de 250 GB. En esos casos debe usar Azure SQL Database o SQL Server.
Para comparar con otras alternativas, consulte:
Detalles del escenario
En este ejemplo se muestra una empresa de marketing y venta que crea los programas de incentivos. Estos programas recompensan a los clientes, los proveedores, los vendedores y los empleados. Los datos son fundamentales para estos programas y la empresa quiere mejorar los conocimientos adquiridos mediante el análisis de datos con Azure.
La empresa necesita un enfoque moderno para analizar los datos, para que las decisiones se tomen con los datos adecuados en el momento oportuno. Los objetivos de la empresa incluyen:
- La combinación de distintos tipos de orígenes de datos en una plataforma en la nube.
- La transformación de los datos de origen a una estructura y taxonomía comunes, de manera que estos sean coherentes y se comparen con facilidad.
- La carga de datos mediante un enfoque altamente paralelizado que admita miles de programas de incentivos, sin el elevado costo de implementación y mantenimiento de infraestructura local.
- La reducción considerable del tiempo necesario para recopilar y transformar datos, para poder centrarse en el análisis de los datos.
Posibles casos de uso
Este enfoque también se puede utilizar para:
- Establecer un almacén de datos como origen de datos único.
- Integrar orígenes de datos relacionales con otros conjuntos de datos desestructurados.
- Usar el modelado semántico y potentes herramientas de visualización para simplificar el análisis de los datos.
Consideraciones
Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.
Las tecnologías de esta arquitectura se eligieron porque cumplen requisitos de la empresa respecto a escalabilidad y disponibilidad, la tiempo que ayudan a controlar los costos.
- La arquitectura de procesamiento paralelo masivo de Azure Synapse proporciona escalabilidad y alto rendimiento.
- Azure Synapse tiene acuerdos de nivel de servicio (SLA) garantizados y procedimientos recomendados para una alta disponibilidad.
- Cuando hay poca actividad de análisis, la empresa puede escalar Azure Synapse a petición, lo que reduce o incluso pausa el proceso para reducir los costos.
- Azure Analysis Services se puede escalar horizontalmente para reducir los tiempos de respuesta durante las grandes cargas de trabajo de consulta. También puede separar el procesamiento del grupo de consultas, de manera que las consultas de los clientes no se ralenticen a causa del procesamiento.
- Azure Analysis Services también tiene Acuerdos de Nivel de Servicio garantizados y procedimientos recomendados para una alta disponibilidad.
- El modelo de seguridad de Azure Synapse proporciona seguridad de conexión, autenticación y autorización mediante la autenticación de Microsoft Entra ID o SQL Server, y el cifrado. Azure Analysis Services usa Microsoft Entra ID para la administración de identidades y la autenticación de usuarios.
Optimización de costos
La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.
Revise un precio de ejemplo para un escenario de almacenamiento de datos con la calculadora de precios de Azure. Ajuste los valores para ver cómo afectan los requisitos a los costos.
- Azure Synapse permite escalar los niveles de proceso y almacenamiento por separado. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.
- Los costos de Data Factory se basan en el número de operaciones de lectura/escritura, las operaciones de supervisión y las actividades de orquestación realizadas en una carga de trabajo. Estos aumentan con cada flujo de datos adicional y la cantidad de datos que procese cada uno.
- Analysis Services está disponible en los niveles Developer, Basic y Standard. Las instancias se pagan en función de las unidades de procesamiento de consultas (QPU) y la memoria disponible. Para mantener los costos más bajos, minimice el número de consultas que ejecuta, la cantidad de datos que procesan y la frecuencia de ejecución.
- Power BI tiene opciones de producto diferentes para distintos requisitos. Power BI Embedded proporciona una opción basada en Azure para insertar la funcionalidad de Power BI en las aplicaciones. En el precio de ejemplo anterior se incluye una instancia de Power BI Embedded.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribió el siguiente colaborador.
Autor principal:
- Alex Buck | Desarrollador de contenido sénior
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
Revise la arquitectura de referencia de Azure para la inteligencia empresarial automatizada, que incluye instrucciones para implementar una instancia de esta arquitectura en Azure.
Obtenga más información sobre los servicios usados en este escenario: