Introducción a la arquitectura de Azure Databricks
En este artículo se proporciona información general de alto nivel sobre la arquitectura de Azure Databricks, incluida su arquitectura empresarial, en combinación con Azure.
Arquitectura de nivel superior
Azure Databricks funciona desde un plano de control y un plano de proceso.
El plano de controlincluye los servicios de backend que administra Azure Databricks administra en su cuenta de Azure Databricks. La aplicación web está en el plano de control.
El plano de procesoes donde se procesan los datos. Hay dos tipos de planos de proceso en función del proceso que use.
- Para el proceso sin servidor, los recursos de proceso sin servidor se ejecutan en un plano de proceso sin servidor en la cuenta de Azure Databricks.
- Para el proceso clásico de cálculos de Azure Databricks, los recursos informáticos se encuentran en su suscripción de Azure en lo que se llama el plano de proceso clásico. Esto hace referencia a la red de la suscripción de Azure y sus recursos.
Para más información sobre el proceso clásico y el proceso sin servidor, vea Tipos de proceso.
Cada área de trabajo de Azure Databricks tiene una cuenta de almacenamiento asociada conocida como cuenta de almacenamiento del área de trabajo. La cuenta de almacenamiento del área de trabajo está en la suscripción de Azure.
En el diagrama siguiente se describe la arquitectura general de Azure Databricks.
Plano de proceso sin servidor
En el plano de proceso sin servidor, los recursos de proceso de Azure Databricks se ejecutan en una capa de proceso dentro de la cuenta de Azure Databricks. Azure Databricks crea un plano de proceso sin servidor en la misma región de Azure que el plano de proceso clásico del área de trabajo’. Usted selecciona esta región al crear un área de trabajo.
Para proteger los datos de los clientes dentro del plano de proceso sin servidor, el proceso sin servidor se ejecuta dentro de un límite de red para el área de trabajo, con varias capas de seguridad para aislar diferentes áreas de trabajo de cliente de Azure Databricks y controles de red adicionales entre clústeres del mismo cliente.
Para obtener más información sobre las redes en el plano de proceso sin servidor, Redes de plano de proceso sin servidor.
Plan de proceso clásico
En el plano de proceso clásico, los recursos de proceso de Azure Databricks se ejecutan en la suscripción de Azure. Los nuevos recursos de proceso se crean dentro de cada red virtual del área de trabajo de la suscripción de Azure del cliente.
Un plano de proceso clásico tiene aislamiento natural porque se ejecuta en la propia suscripción de Azure de cada cliente. Para más información sobre las redes en el plano de proceso clásico, vea Redes del plano de proceso clásico.
Para obtener soporte técnico regional, consulte Regiones de Azure Databricks.
Cuenta de almacenamiento del área de trabajo
Al crear un área de trabajo, Azure Databricks crea una cuenta en la suscripción de Azure para usarla como cuenta de almacenamiento del área de trabajo.
La cuenta de almacenamiento del área de trabajo contiene lo siguiente:
- Datos del sistema del área de trabajo: los datos del sistema del área de trabajo se generan a medida que se usan varias características de Azure Databricks, como la de creación de cuadernos. Este cubo incluye revisiones de cuadernos, detalles de ejecución de trabajos, resultados de comandos y registros de Spark
- DBFS: DBFS (Sistema de archivos de Databricks) es un sistema de archivos distribuido en entornos de Azure Databricks accesibles en el espacio de nombres
dbfs:/
. Los montajes raíz de DBFS y DBFS están en el espacio de nombresdbfs:/
. El almacenamiento y el acceso a datos mediante montajes raíz o DBFS de DBFS es un patrón en desuso y no es recomendado por Databricks. Para más información, vea ¿Qué es DBFS?. - Catálogo del área de trabajo de Unity Catalog: si el área de trabajo se ha habilitado automáticamente para Unity Catalog, la cuenta de almacenamiento del área de trabajo contiene el catálogo del área de trabajo predeterminado. Todos los usuarios del área de trabajo pueden crear recursos en el esquema predeterminado de este catálogo. Consulte Configuración y administración de Unity Catalog.
Para limitar el acceso a la cuenta de almacenamiento del área de trabajo solo desde recursos y redes autorizados, vea Habilitación de la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo.