在 Azure Databricks 上使用 scikit-learn

本页举例说明如何使用 scikit-learn 包在 Azure Databricks 中训练机器学习模型。 scikit-learn 是用于单节点机器学习的最常用 Python 库之一,包含在 Databricks Runtime 和 Databricks Runtime ML 中。 请参阅 Databricks Runtime 发行说明,了解群集运行时随附的 scikit-learn 库版本。

可以导入这些笔记本并在 Azure Databricks 工作区中运行它们。

有关在 Azure Databricks 上快速入门的其他示例笔记本,请参阅教程:开始使用 AI 和机器学习

使用 scikit-learn 的基本示例

此笔记本提供有关 Azure Databricks 上的机器学习模型训练的简要概述。 它使用 scikit-learn 包来训练简单的分类模型。 它还说明了如何使用 MLflow 跟踪模型开发过程,以及如何使用 Optuna 自动执行超参数优化。

如果为 Unity Catalog 启用了工作区,请使用此版本的笔记本:

scikit-learn 分类笔记本 (Unity Catalog)

获取笔记本

如果未为 Unity Catalog 启用工作区,请使用此版本的笔记本:

scikit-learn 分类笔记本

获取笔记本

有关在 Azure Databricks 上使用 scikit-learn 的端到端示例

此笔记本使用 scikit-learn 演示了一个完整的端到端示例,涉及加载数据、模型训练、分布式超参数优化和模型推理。 它还演示了使用 MLflow 模型注册表记录和注册模型的模型生命周期管理。

如果为 Unity Catalog 启用了工作区,请使用此版本的笔记本:

在 Databricks 上将 scikit-learn 与 MLflow 集成配合使用 (Unity Catalog)

获取笔记本

如果未为 Unity Catalog 启用工作区,请使用此版本的笔记本:

在 Databricks 上将 scikit-learn 与 MLflow 集成配合使用

获取笔记本