训练 AI 和 ML 模型

项目
11/19/2024

本部分介绍如何在 Mosaic AI 上训练机器学习和 AI 模型。

马赛克 AI 模型训练通过 AutoML 和基础模型微调工作负载简化和统一训练和部署传统 ML 模型的过程。

AutoML

AutoML 通过自动查找最佳算法和超参数配置，简化了将机器学习应用到数据集的过程。 AutoML 提供无代码 UI 和 Python API。

基础模型微调

Databricks 上的基础模型微调（现在是马赛克 AI 模型训练的一部分）允许你使用自己的数据自定义大型语言模型（LLM）。此过程涉及微调预先存在的基础模型的训练，与从头开始训练模型相比，这显著减少了所需的数据、时间和计算资源。主要功能包括：

监督式微调： 训练结构化提示响应数据，以使模型适应新任务。
继续预先训练： 使用其他文本数据增强模型，以添加新知识或专注于特定域。
聊天完成： 训练聊天日志上的模型以提高聊天能力。

开源库示例

请参阅各种开放源代码机器学习库中的机器学习训练示例，包括使用 Optuna 和 Hyperopt 的超参数优化示例。

深度学习

请参阅分布式深度学习训练的示例和最佳做法，以便在 Azure Databricks 上开发和微调深度学习模型。

推荐者

了解如何在 Azure Databricks 上训练基于深度学习的推荐模型。与传统的推荐模型相比，深度学习模型能获得更高质量的结果，并能缩放到更大的数据量。