Creación de un clúster de Spark

Completado

Puede crear uno o varios clústeres en el área de trabajo de Azure Databricks mediante el portal de Azure Databricks.

Screenshot of the Create Cluster interface in the Azure Databricks portal.

Al crear el clúster, puede especificar las opciones de configuración, entre las que se incluyen:

  • Nombre del clúster.
  • Un modo de clúster, que puede ser:
    • Estándar: adecuado para cargas de trabajo de usuario único que necesitan varios nodos de trabajo.
    • Alta simultaneidad: adecuado para cargas de trabajo en las que varios usuarios usarán el clúster simultáneamente.
    • Nodo único: adecuado para cargas de trabajo pequeñas o pruebas, donde solo se requiere un único nodo de trabajo.
  • La versión del entorno de ejecución de Databricks que se va a usar en el clúster, que determina las versiones de Spark y de los componentes individuales que se instalan, como Python, Scala y otros.
  • El tipo de máquina virtual (VM) que se usa para los nodos de trabajo del clúster.
  • Número mínimo y máximo de nodos de trabajo en el clúster.
  • Tipo de máquina virtual que se usa para el nodo de controlador en el clúster.
  • Si el clúster admite el escalado automático para cambiar el tamaño dinámico del clúster.
  • Cuánto tiempo puede permanecer inactivo el clúster antes de apagarse automáticamente.

Administración de recursos de clúster de Azure

Cuando se crea un área de trabajo de Azure Databricks, se implementa un dispositivo de Databricks como recurso de Azure en la suscripción. Cuando se crea un clúster en el área de trabajo, se especifican los tipos y tamaños de las máquinas virtuales (VM) que se usarán para los nodos de controlador y de trabajo, y otras opciones de configuración, pero Azure Databricks administra todos los demás aspectos del clúster.

El dispositivo de Databricks se implementa en Azure como grupo de recursos administrado en la suscripción. Este grupo de recursos contiene las VM de controlador y de trabajo para sus clústeres, junto con otros recursos necesarios, como una red virtual, un grupo de seguridad y una cuenta de almacenamiento. Todos los metadatos para el clúster, como los trabajos programados, se almacenan en una base de datos de Azure con replicación geográfica para tolerancia a errores.

Internamente, Azure Kubernetes Service (AKS) se usa para ejecutar los planos de datos y el plano de control de Azure Databricks a través de contenedores que se ejecutan en la última generación de hardware de Azure (VM Dv3), con discos SSD NvMe capaces de alcanzar una latencia de 100 us en máquinas virtuales Azure de alto rendimiento con redes aceleradas. Azure Databricks usa estas características de Azure para mejorar aún más el rendimiento de Spark. Después que los servicios de su grupo de recursos administrados estén listos, puede administrar el clúster de Databricks mediante la interfaz de usuario de Azure Databricks y características como la terminación y el escalado automáticos.

Diagram of Azure Databricks architecture.

Nota:

También tiene la opción de adjuntar el clúster a un grupo de nodos inactivos para reducir el tiempo de inicio del clúster. Para más información, consulte Grupos en la documentación de Azure Databricks.