计算创建速查表

项目
10/04/2024

本文旨在为计算创建提供明确且有主见的指导。通过为工作流使用正确的计算类型，可以提高性能并节省成本。

最佳做法	影响	Docs
如果你是 Databricks 新手，请首先使用常规的通用实例类型	为工作负载选择合适的实例类型可以提高效率。	- 创建群集
使用共享访问模式，除非所需的功能不受支持	共享访问模式的计算可供存在数据隔离的多个用户使用。	- 访问模式
如果有足够的可用性，请使用最新一代实例类型	最新一代实例类型提供最佳性能和最新功能。	- Azure 实例类型
根据所需的工作负载运行速度设置按需实例和现货实例的平衡	现成实例可以节省成本，但如果回收现成实例，可能会影响操作的整体运行时间。	- 计算配置建议
根据工作负载执行的操作类型选择节点大小和工作器数量	例如，如果预期会出现大量混排，则使用大型单节点而不是多个较小的节点可能更高效。	- 调整计算规模时的注意事项
在为其中 1-4 个工作器（每个工作器有 8 个核心）设置了自动缩放的群集上运行 vacuum。选择核心数为 8 到 32 的驱动程序。如果出现内存不足 (OOM) 错误，请增加驱动程序的大小。	Vacuum 语句分两个阶段进行，第二个阶段需要大量驱动程序。如果不使用大小合适的集群，操作可能会导致速度减慢，并且可能不会成功。	- vacuum 需要多大的群集？ - VACUUM 最佳做法
评估批处理工作流是否会受益于 Photon	Photon 可加快查询速度并降低每个工作负载的总成本。	- Photon 的优势

通过

计算创建速查表

反馈

其他资源