Compartir a través de


Selección de una tecnología de procesamiento por lotes en Azure

Las soluciones de macrodatos suelen constar de tareas de procesamiento por lotes discretas que contribuyen a la solución de procesamiento de datos general. Puede usar el procesamiento por lotes para cargas de trabajo que no requieran acceso inmediato a la información. El procesamiento por lotes puede complementar los requisitos de procesamiento en tiempo real. También puede usar el procesamiento por lotes para equilibrar la complejidad y reducir el coste de la implementación general.

El requisito fundamental de los motores de procesamiento por lotes es escalar horizontalmente los cálculos para controlar un gran volumen de datos. A diferencia del procesamiento en tiempo real, el procesamiento por lotes tiene latencias (el tiempo transcurrido entre la ingesta de datos y calcular un resultado) de minutos u horas.

Selección de una tecnología para el procesamiento por lotes

Microsoft ofrece varios servicios que puede usar para realizar el procesamiento por lotes.

Microsoft Fabric

Microsoft Fabric es una plataforma de datos y análisis todo en uno para organizaciones. Es una oferta de software como servicio que simplifica cómo aprovisiona, administra y rige una solución de análisis de un extremo a otro. Fabric controla el movimiento, el procesamiento, la ingesta, la transformación y los informes de datos. Las características de Fabric que se usan para el procesamiento por lotes incluyen ingeniería de datos, almacenamientos de datos, almacenes de lago y procesamiento de Apache Spark. Azure Data Factory en Fabric también admite almacenes de lago. Para simplificar y acelerar el desarrollo, puede habilitar Copilot controlado por IA.

  • Lenguajes: R, Python, Java, Scala y SQL

  • Seguridad: red virtual administrada y control de acceso basado en roles (RBAC) de OneLake

  • Almacenamiento principal: OneLake, que tiene accesos directos y opciones de creación de reflejo

  • Spark: grupo de inicio prehidratado y grupo de Spark personalizado con tamaños de nodo predefinidos

Azure Synapse Analytics

Azure Synapse Analytics es un servicio de análisis empresarial que reúne tecnologías de SQL y Spark en una sola construcción de un área de trabajo. Azure Synapse Analytics simplifica la seguridad, la gobernanza y la administración. Cada área de trabajo tiene canalizaciones de datos integradas que puede usar para crear flujos de trabajo de un extremo a otro. También puede aprovisionar un grupo de SQL dedicado para el análisis a gran escala, un punto de conexión SQL sin servidor que puede usar para consultar directamente el lago y un entorno de ejecución de Spark para el procesamiento de datos distribuido.

  • Lenguajes: Python, Java, Scala y SQL

  • Seguridad: red virtual administrada, RBAC y control de acceso, y listas de control de acceso de almacenamiento en Azure Data Lake Storage

  • Almacenamiento principal: Data Lake Storage y también se integra con otros orígenes

  • Spark: configuración personalizada de Spark con tamaños de nodo predefinidos

Azure Databricks

Azure Databricks es una plataforma de análisis basada en Spark. Incluye características enriquecidas y premium de Spark basadas en Spark de código abierto. Azure Databricks es un servicio de Microsoft que se integra con el resto de los servicios de Azure. Incluye configuraciones adicionales para las implementaciones de clústeres de Spark. Y Unity Catalog ayuda a simplificar la gobernanza de objetos de Spark de Azure Databricks.

  • Lenguajes: R, Python, Java, Scala y Spark SQL.

  • Seguridad: Autenticación de usuario con Microsoft Entra ID.

  • Almacenamiento principal: Integración incorporada con Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics y otros servicios. Para más información, vea Orígenes de datos.

Entre otras ventajas se incluyen las siguientes:

  • Cuadernos web para la exploración de datos y la colaboración.

  • Horas de inicio rápido del clúster, terminación automática y escalado automático.

  • Admite clústeres con GPU habilitado.

Principales criterios de selección

Para elegir la tecnología para el procesamiento por lotes, tenga en cuenta las siguientes preguntas:

  • ¿Desea un servicio administrado o desea administrar sus propios servidores?

  • ¿Desea crear la lógica del procesamiento por lotes de forma declarativa o imperativa?

  • ¿Va a realizar el procesamiento por lotes en ráfagas? Si es así, considere las opciones que proporcionan la capacidad de finalizar automáticamente un clúster o que tienen modelos de precios para cada trabajo por lotes.

  • ¿Necesita consultar almacenes de datos relacionales junto con procesamiento por lotes, por ejemplo, para buscar datos de referencia? En caso afirmativo, considere opciones que permiten consultar almacenes relacionales externos.

Matriz de funcionalidades

En las tablas siguientes se resumen las principales diferencias en cuanto a funcionalidades entre servicios.

Funcionalidades generales

Capacidad Fabric Azure Synapse Analytics Azure Databricks
Software como servicio 1 No No
Servicio administrado No
Almacenes de datos relacionales
Modelo de precios Unidades de capacidad Grupo de SQL u hora del clúster Unidad de Azure Databricks 2 y hora de clúster

[1] Capacidad de Fabric asignada.

[2] Una unidad de Azure Databricks es la funcionalidad de procesamiento por hora.

Otras capacidades

Funcionalidad Fabric Azure Synapse Analytics Azure Databricks
Escalado automático No No
Granularidad de escalabilidad horizontal Por SKU de Fabric Por clúster o grupo de SQL Por clúster
Admite el almacenamiento en caché en memoria de datos No
Consulta de almacenes relacionales externos No
Autenticación Microsoft Entra ID SQL o Microsoft Entra ID Microsoft Entra ID
Auditoría
Seguridad de nivel de fila 1
Admite firewalls
Enmascaramiento de datos dinámicos

[1] Solo predicados de filtro. Para obtener más información, consulte Seguridad de nivel de fila.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes