计算创建速查表
本文旨在为计算创建提供明确且有主见的指导。 通过为工作流使用正确的计算类型,可以提高性能并节省成本。
最佳做法 | 影响 | Docs |
---|---|---|
如果你是 Databricks 新手,请首先使用常规的通用实例类型 | 为工作负载选择合适的实例类型可以提高效率。 | - 创建群集 |
使用共享访问模式,除非所需的功能不受支持 | 共享访问模式的计算可供存在数据隔离的多个用户使用。 | - 访问模式 |
如果有足够的可用性,请使用最新一代实例类型 | 最新一代实例类型提供最佳性能和最新功能。 | - Azure 实例类型 |
根据所需的工作负载运行速度设置按需实例和现货实例的平衡 | 现成实例可以节省成本,但如果回收现成实例,可能会影响操作的整体运行时间。 | - 计算配置建议 |
根据工作负载执行的操作类型选择节点大小和工作器数量 | 例如,如果预期会出现大量混排,则使用大型单节点而不是多个较小的节点可能更高效。 | - 调整计算规模时的注意事项 |
在为其中 1-4 个工作器(每个工作器有 8 个核心)设置了自动缩放的群集上运行 vacuum。 选择核心数为 8 到 32 的驱动程序。 如果出现内存不足 (OOM) 错误,请增加驱动程序的大小。 |
Vacuum 语句分两个阶段进行,第二个阶段需要大量驱动程序。 如果不使用大小合适的集群,操作可能会导致速度减慢,并且可能不会成功。 | - vacuum 需要多大的群集? - VACUUM 最佳做法 |
评估批处理工作流是否会受益于 Photon | Photon 可加快查询速度并降低每个工作负载的总成本。 | - Photon 的优势 |