计算创建速查表

本文旨在为计算创建提供明确且有主见的指导。 通过为工作流使用正确的计算类型,可以提高性能并节省成本。

最佳做法 影响 Docs
如果你是 Databricks 新手,请首先使用常规的通用实例类型 为工作负载选择合适的实例类型可以提高效率。 - 创建群集
使用共享访问模式,除非所需的功能不受支持 共享访问模式的计算可供存在数据隔离的多个用户使用。 - 访问模式
如果有足够的可用性,请使用最新一代实例类型 最新一代实例类型提供最佳性能和最新功能。 - Azure 实例类型
根据所需的工作负载运行速度设置按需实例和现货实例的平衡 现成实例可以节省成本,但如果回收现成实例,可能会影响操作的整体运行时间。 - 计算配置建议
根据工作负载执行的操作类型选择节点大小和工作器数量 例如,如果预期会出现大量混排,则使用大型单节点而不是多个较小的节点可能更高效。 - 调整计算规模时的注意事项
在为其中 1-4 个工作器(每个工作器有 8 个核心)设置了自动缩放的群集上运行 vacuum。

选择核心数为 8 到 32 的驱动程序。 如果出现内存不足 (OOM) 错误,请增加驱动程序的大小。
Vacuum 语句分两个阶段进行,第二个阶段需要大量驱动程序。 如果不使用大小合适的集群,操作可能会导致速度减慢,并且可能不会成功。 - vacuum 需要多大的群集?
- VACUUM 最佳做法
评估批处理工作流是否会受益于 Photon Photon 可加快查询速度并降低每个工作负载的总成本。 - Photon 的优势