创建 Spark 群集
可使用 Azure Databricks 门户在 Azure Databricks 工作区中创建一个或多个群集。
创建群集时,可指定配置设置,包括:
- 群集的名称。
- 群集模式,可为下列模式:
- 标准:适用于需要多个工作器节点的单用户工作负载。
- 高并发:适用于多个用户将同时使用群集的工作负载。
- 单节点:适用于只需要单个工作器节点的小型工作负载或测试。
- 要用于群集的 Databricks 运行时的版本;这决定了 Spark 和各个组件的版本,例如 Python、Scala 和安装的其他组件。
- 用于群集中工作器节点的虚拟机 (VM) 类型。
- 群集中工作器节点的数量上限和下限。
- 用于群集中驱动程序节点的 VM 类型。
- 群集是否支持自动缩放以动态调整群集的大小。
- 群集在自动关闭之前可保持空闲状态多长时间。
Azure 如何管理群集资源
创建 Azure Databricks 工作区时,Databricks 设备会作为 Azure 资源部署在订阅中。 在工作区中创建群集时,你需指定要用于驱动程序和工作器节点的虚拟机 (VM) 的类型和大小,以及其他一些配置选项,而 Azure Databricks 会管理群集的所有其他方面。
Databricks 设备作为订阅中的托管资源组部署到 Azure 中。 此资源组包含群集的驱动程序和工作器 VM,以及其他所需资源(包括虚拟网络、安全组和存储帐户)。 群集的所有元数据(例如计划的作业)都存储在可通过异地复制实现容错的 Azure 数据库中。
在内部,Azure Kubernetes Service (AKS) 用于通过在最新一代 Azure 硬件 (Dv3 VM) 上运行的容器来运行 Azure Databricks 控制平面和数据平面,并使用能够在具有加速网络的高性能 Azure 虚拟机上实现 100us 延迟的 NvMe SSD。 Azure Databricks 利用 Azure 的这些功能进一步提高 Spark 性能。 托管资源组中的服务准备就绪后,可通过 Azure Databricks UI 和各种功能(如自动缩放和自动终止)来管理 Databricks 群集。
注意
还可选择将群集附加到空闲节点池,以减少群集启动时间。 有关详细信息,请参阅 Azure Databricks 文档中的池。