探索模型开发

9 分钟

开始开发和训练机器学习模型时，可使用 Azure Databricks，因为它提供了强大的数据处理功能和一个协作环境。

首先，让我们探索 Azure Databricks 中的功能，这些功能可在模型开发和训练期间为你提供帮助。之后，你可探索一些有助于你和你的团队高效工作和协作的功能。

使用 Azure Databricks 开发机器学习模型

在模型开发过程中，可使用 Azure Databricks 中提供的各种功能以执行以下操作：

自动执行算法选择和超参数优化。
跟踪模型训练试验。
管理机器学习模型。
评估模型性能和准确性。
部署并集成模型。

让我们逐个探索这些功能。

自动执行算法选择

在开发过程中，你想要试验不同的算法和超参数，以了解哪些配置会产生最佳机器学习模型。

若要快速轻松地自动执行算法选择、超参数优化和模型评估，可使用自动化机器学习 (AutoML)。

AutoML 简化了模型开发过程，并使你能够专注于解释结果并做出数据驱动决策。

提示

详细了解 Azure Databricks AutoML。

执行超参数优化

超参数优化是优化机器学习模型的关键步骤，Azure Databricks 提供了用于简化此过程的工具。

除了使用 AutoML 自动执行超参数优化外，还可使用 Hyperopt 高效探索不同的超参数配置并识别性能最佳的模型。

提示

详细了解 Azure Databricks 中的超参数优化。

通过超参数优化来优化模型训练，可增强模型的准确性和性能。

使用试验跟踪模型训练

在 Azure Databricks 中，可使用常用的框架（如 scikit-learn、TensorFlow 和 PyTorch）来训练和评估机器学习模型。

还可在分布式计算群集上训练模型，从而在使用大型数据集或计算密集型算法时显著减少训练时间。

为了更有效地开发模型，可通过与 MLflow（一个用于管理完整机器学习生命周期的开源框架）的集成，使用试验来跟踪训练的模型。

MLflow 提供用于跟踪试验、打包代码和共享模型的功能，确保了整个开发过程的可重现性和协作性。

试验包含重现模型训练工作负载所必要的所有元数据，包括所有输入和输出。输出可包括各种指标和可视化效果，用于评估该试验的模型性能。跟踪模型训练时，可使用不同的配置轻松比较已训练的不同模型，以查找最符合需求的模型。

提示

详细了解如何在 Azure Databricks 中使用 MLflow 进行机器学习生命周期管理。

在 Azure Databricks 中高效工作和协作

将 Azure Databricks 用于机器学习工作负载的端到端生命周期时，可从各种使你能够更高效地工作和协作的功能中受益。

在工作区中协作编写代码

Azure Databricks 提供一个协作工作区，在此，数据科学家和工程师可在一个统一的环境中协同工作。

该平台支持各种编程语言，包括 Python、R、Scala 和 SQL，使你和你的团队成员能够使用首选的工具和语言。该协作环境可提高工作效率并促进团队合作，因为你可共享笔记本、可视化效果和见解。

使用版本控制管理代码

对于管理代码更改并与团队协作，使用版本控制至关重要。

Azure Databricks 与 Git 集成，使你能够对笔记本和脚本进行版本控制。通过将 Databricks 工作区连接到 Git 存储库，可跟踪更改、还原到以前的版本并更有效地与团队协作。

在 Azure Databricks 中设置 Git 集成：

连接到 Git 存储库：在 Databricks 工作区中，转到 User Settings 并配置 Git 提供程序（例如 GitHub、GitLab、Bitbucket）。使用 Git 凭据进行身份验证并连接到存储库。
克隆存储库：使用 Databricks UI，将存储库克隆到工作区中。通过克隆到存储库，可直接在 Databricks 中处理代码，并将更改提交回存储库。
提交和推送更改：对笔记本或脚本进行更改后，使用 Git 集成提交更改并将其推送到远程存储库。使用 Git 集成可确保对工作进行版本控制并备份。

提示

详细了解 Git 与 Databricks Git 文件夹的集成。

实现持续集成和持续部署 (CI/CD)

Azure Databricks 支持机器学习模型的 CI/CD 做法，使你能够自动执行模型的部署和监视。通过与 Azure DevOps 和 GitHub Actions 等工具集成，可实现自动化管道，确保模型得到持续测试、验证和更新。对于在生产环境中维护模型的准确性和可靠性，此功能至关重要。

Azure Databricks 为模型开发和训练提供了一个全面的可缩放平台。对于希望生成和部署高性能机器学习模型的数据科学家和工程师，它的协作工作区、高级数据处理功能以及与其他 Azure 服务的无缝集成使它成为理想选择。