Selección de una tecnología de procesamiento por lotes en Azure
Las soluciones de macrodatos suelen constar de tareas de procesamiento por lotes discretas que contribuyen a la solución de procesamiento de datos general. Puede usar el procesamiento por lotes para cargas de trabajo que no requieran acceso inmediato a la información. El procesamiento por lotes puede complementar los requisitos de procesamiento en tiempo real. También puede usar el procesamiento por lotes para equilibrar la complejidad y reducir el coste de la implementación general.
El requisito fundamental de los motores de procesamiento por lotes es escalar horizontalmente los cálculos para controlar un gran volumen de datos. A diferencia del procesamiento en tiempo real, el procesamiento por lotes tiene latencias (el tiempo transcurrido entre la ingesta de datos y calcular un resultado) de minutos u horas.
Selección de una tecnología para el procesamiento por lotes
Microsoft ofrece varios servicios que puede usar para realizar el procesamiento por lotes.
Microsoft Fabric
Microsoft Fabric es una plataforma de datos y análisis todo en uno para organizaciones. Es una oferta de software como servicio que simplifica cómo aprovisiona, administra y rige una solución de análisis de un extremo a otro. Fabric controla el movimiento, el procesamiento, la ingesta, la transformación y los informes de datos. Las características de Fabric que se usan para el procesamiento por lotes incluyen ingeniería de datos, almacenamientos de datos, almacenes de lago y procesamiento de Apache Spark. Azure Data Factory en Fabric también admite almacenes de lago. Para simplificar y acelerar el desarrollo, puede habilitar Copilot controlado por IA.
Lenguajes: R, Python, Java, Scala y SQL
Seguridad: red virtual administrada y control de acceso basado en roles (RBAC) de OneLake
Almacenamiento principal: OneLake, que tiene accesos directos y opciones de creación de reflejo
Spark: grupo de inicio prehidratado y grupo de Spark personalizado con tamaños de nodo predefinidos
Azure Synapse Analytics
Azure Synapse Analytics es un servicio de análisis empresarial que reúne tecnologías de SQL y Spark en una sola construcción de un área de trabajo. Azure Synapse Analytics simplifica la seguridad, la gobernanza y la administración. Cada área de trabajo tiene canalizaciones de datos integradas que puede usar para crear flujos de trabajo de un extremo a otro. También puede aprovisionar un grupo de SQL dedicado para el análisis a gran escala, un punto de conexión SQL sin servidor que puede usar para consultar directamente el lago y un entorno de ejecución de Spark para el procesamiento de datos distribuido.
Lenguajes: Python, Java, Scala y SQL
Seguridad: red virtual administrada, RBAC y control de acceso, y listas de control de acceso de almacenamiento en Azure Data Lake Storage
Almacenamiento principal: Data Lake Storage y también se integra con otros orígenes
Spark: configuración personalizada de Spark con tamaños de nodo predefinidos
Azure Databricks
Azure Databricks es una plataforma de análisis basada en Spark. Incluye características enriquecidas y premium de Spark basadas en Spark de código abierto. Azure Databricks es un servicio de Microsoft que se integra con el resto de los servicios de Azure. Incluye configuraciones adicionales para las implementaciones de clústeres de Spark. Y Unity Catalog ayuda a simplificar la gobernanza de objetos de Spark de Azure Databricks.
Lenguajes: R, Python, Java, Scala y Spark SQL.
Seguridad: Autenticación de usuario con Microsoft Entra ID.
Almacenamiento principal: Integración incorporada con Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics y otros servicios. Para más información, vea Orígenes de datos.
Entre otras ventajas se incluyen las siguientes:
Cuadernos web para la exploración de datos y la colaboración.
Horas de inicio rápido del clúster, terminación automática y escalado automático.
Admite clústeres con GPU habilitado.
Principales criterios de selección
Para elegir la tecnología para el procesamiento por lotes, tenga en cuenta las siguientes preguntas:
¿Desea un servicio administrado o desea administrar sus propios servidores?
¿Desea crear la lógica del procesamiento por lotes de forma declarativa o imperativa?
¿Va a realizar el procesamiento por lotes en ráfagas? Si es así, considere las opciones que proporcionan la capacidad de finalizar automáticamente un clúster o que tienen modelos de precios para cada trabajo por lotes.
¿Necesita consultar almacenes de datos relacionales junto con procesamiento por lotes, por ejemplo, para buscar datos de referencia? En caso afirmativo, considere opciones que permiten consultar almacenes relacionales externos.
Matriz de funcionalidades
En las tablas siguientes se resumen las principales diferencias en cuanto a funcionalidades entre servicios.
Funcionalidades generales
Capacidad | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software como servicio | Sí1 | No | No |
Servicio administrado | No | Sí | Sí |
Almacenes de datos relacionales | Sí | Sí | Sí |
Modelo de precios | Unidades de capacidad | Grupo de SQL u hora del clúster | Unidad de Azure Databricks 2 y hora de clúster |
[1] Capacidad de Fabric asignada.
[2] Una unidad de Azure Databricks es la funcionalidad de procesamiento por hora.
Otras capacidades
Funcionalidad | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Escalado automático | No | No | Sí |
Granularidad de escalabilidad horizontal | Por SKU de Fabric | Por clúster o grupo de SQL | Por clúster |
Admite el almacenamiento en caché en memoria de datos | No | Sí | Sí |
Consulta de almacenes relacionales externos | Sí | No | Sí |
Autenticación | Microsoft Entra ID | SQL o Microsoft Entra ID | Microsoft Entra ID |
Auditoría | Sí | Sí | Sí |
Seguridad de nivel de fila | Sí | Sí 1 | Sí |
Admite firewalls | Sí | Sí | Sí |
Enmascaramiento de datos dinámicos | Sí | Sí | Sí |
[1] Solo predicados de filtro. Para obtener más información, consulte Seguridad de nivel de fila.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Creadores de entidad de seguridad:
- Zoiner Tejada | Director ejecutivo y arquitecto
- Pratima Valavala | Arquitecto principal de soluciones
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
- ¿Qué es Fabric?
- Guía de decisión de Fabric
- Formación: Introducción a Azure Synapse Analytics
- ¿Qué es Azure HDInsight?
- ¿Qué es Azure Databricks?