Compartir vía


Descripción general de las configuraciones de Databricks Azure

Azure Databricks es una plataforma basada en la nube que combina las mejores características de ingeniería de datos y la ciencia de datos. Le permite crear, administrar y analizar canales de datos utilizando Apache Spark, un marco de código abierto rápido y escalable para el procesamiento de big data. Azure Databricks también proporciona un espacio de trabajo colaborativo para que los científicos de datos e ingenieros trabajen juntos en Aprendizaje automático y proyectos de inteligencia artificial.

Si trabaja en el gobierno o en la industria del sector público, esta documentación de arquitectura de referencia proporciona una guía fundamentada para el uso de Azure Databricks con una Zona de aterrizaje soberana o una implementación de Zona de aterrizaje Azure con iniciativas de política de línea base de soberanía aplicadas.

La documentación del producto Databricks Azure ofrece información detallada sobre varios artículos. ... Este documento complementa la documentación brindándole recomendaciones seleccionadas sobre conceptos y opciones clave para configurar un Databricks Azure ambiente.

Características principales de Azure Databricks

Azure Databricks tiene un amplio conjunto de características, pero para esta arquitectura de referencia, nos centramos en sus elementos de infraestructura. Azure Databricks ofrece:

  • Cuadernos interactivos: Utilice cuadernos para escribir código en Python, Scala, SQL o R, y visualice los resultados con gráficos y tablas. Compartir y comenta en cuadernos con miembros del equipo e intégralos con herramientas populares como GitHub y Azure DevOps.

  • Opciones de cómputo: Azure Databricks proporciona varias opciones de cómputo para soportar ingeniería de datos, ciencia de datos y cargas de trabajo de análisis de datos. Estas opciones incluyen computación sin servidor escalable y bajo demanda para notebooks y trabajos, computación aprovisionada para análisis multipropósito y trabajos automatizados, y almacenes SQL para ejecutar comandos SQL. Los grupos de instancias ofrecen instancias inactivas y listas para usar para reducir los tiempos de inicio y escalamiento automático, lo que mejora la eficiencia en diferentes escenarios de procesamiento de datos.

  • Integración de datos: se integra fácilmente con varias fuentes y destinos de datos, como Conectar Blob Storage, Azure Data Lake Storage, Azure SQL Database, Azure Synapse Analytics, Azure Cosmos DB y más. Utilice Delta Lake, una solución de lago de datos confiable y de alto rendimiento que admite transacciones ACID y aplicación de esquemas.

  • Aprendizaje automático: Cree, entrene e implemente modelos Aprendizaje automático utilizando marcos populares como TensorFlow, PyTorch, Scikit-learn y XGBoost. Utilice MLflow, una plataforma de código abierto para administrar el ciclo de vida de Aprendizaje automático, para rastrear experimentos, registrar métricas e implementar modelos.

  • Seguridad empresarial: acceda y procese sus datos de forma segura, con funciones como control de acceso basado en roles, cifrado, auditoría y cumplimiento. Integre Azure Databricks con ID, Azure Key Vault y Azure Private vincular para protección de identidad y datos. Microsoft Entra

  • Gobernanza y uso compartido de datos: Unity Catalog simplifica el uso compartido de datos dentro de las organizaciones y el análisis seguro en la nube al proporcionar una versión administrada de Delta Sharing para uso compartido externo y un modelo de gobernanza de datos unificado para los datos almacén de lago de datos.

Arquitectura de alto nivel de Databricks

Azure Databricks opera desde un plano de control y un plano de cómputo. La arquitectura de referencia recomienda opciones de configuración en cada uno de estos planos de control. El siguiente diagrama describe la arquitectura general de Databricks Azure.

Captura de pantalla de la arquitectura de alto nivel de Databricks.

Plano de control

El plano de control es el capa de Azure Databricks que administra el ciclo de vida de los clústeres y trabajos, y la autenticación y autorización de usuarios y acceso a datos. El plano de control incluye los servicios de backend administrados por Azure Databricks en su cuenta Azure Databricks. La aplicación web está en el plano de control.

El plano de control se ejecuta en una suscripción Azure propiedad de Azure Databricks y se comunica con los planos de cómputo clásicos y sin servidor a través de API seguras. El plano de control también proporciona la interfaz web y las API REST para que los usuarios interactúen con Azure Databricks.

Plano de cálculo

El plano de cómputo es donde se procesan sus datos. Hay dos tipos de planos de cómputo: sin servidor y clásico. El plano de cómputo sin servidor ofrece recursos instantáneos y elásticos, mientras que el plano de cómputo clásico se basa en una infraestructura preaprovisionada.

Plano de cómputo sin servidor

La computación sin servidor es ideal para consultas ad hoc, cuadernos y cargas de trabajo de corta duración. Por ejemplo, puede utilizar la computación sin servidor para ejecutar comandos SQL en cuadernos o ejecutar trabajos livianos. En el plano de cómputo sin servidor, los recursos se ejecutan en un cómputo capa dentro de la cuenta de Databricks Azure.

Azure Databricks crea un plano de cómputo sin servidor en la misma región Azure que el plano de cómputo clásico de su espacio de trabajo. Opera un grupo de servidores, ubicado en la cuenta de Databricks, que ejecutan contenedores Kubernetes que pueden asignarse a un usuario en cuestión de segundos. Para obtener más información, consulte Anunciamos Databricks Serverless SQL: una plataforma instantánea, administrada, segura y lista para producción para cargas de trabajo SQL - El blog de Databricks.

La plataforma computacional expande rápidamente el clúster con más servidores cuando los usuarios ejecutan informes o consultas simultáneamente para manejar la carga simultánea. Databricks administra toda la configuración del servidor y realiza automáticamente los parches y actualizaciones según sea necesario. El cómputo sin servidor se factura por uso (por ejemplo, por ejecución de consulta o ejecución de trabajo).

La imagen muestra un plano de computación sin servidor.

Cada servidor ejecuta una configuración segura y todo el procesamiento está protegido por tres capas de aislamiento: el contenedor de Kubernetes que aloja el entorno de ejecución, la máquina virtual que aloja el contenedor y la red virtual para el espacio de trabajo. Cada capa está aislado en un espacio de trabajo sin permitir el uso compartido ni el tráfico entre redes.

Los contenedores utilizan configuraciones reforzadas, las máquinas virtuales se apagan y no se reutilizan, y el tráfico de red está restringido a los nodos del mismo clúster. Todo el procesamiento es efímero, se dedica exclusivamente a esa carga de trabajo y se borra de forma segura una vez que se completa la carga de trabajo.

Todo el tráfico entre usted, el plano de control, el plano de cómputo y los servicios en la nube se enruta a través de la red global de Azure, no de Internet pública. El plano de cómputo sin servidor para almacenes SQL sin servidor no utiliza la conectividad privada vincular de back-end configurable por el cliente. El plano de control de Databricks Azure se conecta al plano de cómputo sin servidor con mTLS con acceso IP permitido solo para la dirección IP del plano de control.

Todo el almacenamiento conectado está protegido por el cifrado AES-256 estándar de la industria y todo el tráfico entre el usuario, el plano de control, el plano de cómputo y los servicios en la nube está cifrado con al menos TLS 1.2. Los almacenes SQL sin servidor no utilizan claves administradas por el cliente para los discos administrados.

Las cargas de trabajo no tienen privilegios ni credenciales para sistemas fuera del alcance de esa carga de trabajo y el acceso a los datos se realiza a través de tokens de corta duración (una hora). Estos tokens se pasan de forma segura a cada carga de trabajo específica.

A partir de junio de 2024, Azure Confidential Computing no es compatible con el cómputo sin servidor, pero su carga de trabajo está protegida por múltiples capas de aislamiento como se muestra en el diagrama de aislamiento del cómputo sin servidor Azure.

Para obtener más información, consulte Implemente sus cargas de trabajo de forma segura en computación sin servidor.

Plano de cómputo clásico

El plano de cómputo clásico es adecuado para trabajos de larga duración, cargas de trabajo de producción y necesidades de recursos constantes. Por ejemplo, puede utilizar la computación aprovisionada para canalizaciones ETL, entrenamiento Aprendizaje automático y tareas Conectar.

Un plano de cómputo clásico tiene un aislamiento natural porque se ejecuta en su propia suscripción Azure. Se crean y configuran nuevos recursos informáticos dentro de la red virtual de cada espacio de trabajo en su suscripción Azure. Los recursos computacionales permanecen constantes hasta que se modifican explícitamente y se facturan según el tipo de instancia y la duración. Los clústeres pueden usar claves administradas por el cliente para discos administrados y se admiten instancias puntuales.

Los administradores de Databricks pueden usar políticas de clúster para controlar muchos aspectos de los clústeres, incluidos los tipos de instancias disponibles, las versiones de Databricks y los tamaños de las instancias.

La inyección de red virtual de Databricks es una característica que le permite implementar recursos del plano de cómputo clásico de Databricks Azure en su propia red virtual. Esta función le ayuda a transferir Databricks a otros servicios Azure de una manera más segura utilizando puntos finales de servicio o puntos finales privados. También puede utilizar el emparejamiento de redes virtuales para emparejar la red virtual en la que se ejecuta su espacio de trabajo Databricks Azure con otra red virtual Azure.