训练 AI 和 ML 模型

本部分介绍如何在 Mosaic AI 上训练机器学习和 AI 模型。

马赛克 AI 模型训练通过 AutoML 和基础模型微调工作负载简化和统一训练和部署传统 ML 模型的过程。

AutoML

AutoML 通过自动查找最佳算法和超参数配置,简化了将机器学习应用到数据集的过程。 AutoML 提供无代码 UI 和 Python API。

基础模型微调

Databricks 上的基础模型微调 (现在是马赛克 AI 模型训练的一部分)允许你使用自己的数据自定义大型语言模型(LLM)。 此过程涉及微调预先存在的基础模型的训练,与从头开始训练模型相比,这显著减少了所需的数据、时间和计算资源。 主要功能包括:

  • 监督式微调: 训练结构化提示响应数据,以使模型适应新任务。
  • 继续预先训练: 使用其他文本数据增强模型,以添加新知识或专注于特定域。
  • 聊天完成: 训练聊天日志上的模型以提高聊天能力。

开源库示例

请参阅各种开放源代码机器学习库中的机器学习训练示例,包括使用 Optuna 和 Hyperopt 的超参数优化示例。

深度学习

请参阅分布式深度学习训练的示例和最佳做法,以便在 Azure Databricks 上开发和微调深度学习模型。

推荐者

了解如何在 Azure Databricks 上训练基于深度学习的推荐模型。 与传统的推荐模型相比,深度学习模型能获得更高质量的结果,并能缩放到更大的数据量。