了解数据科学过程

已完成

将数据可视化是从数据中提取见解的常用方法。 每当有复杂的数据集时,最好深入研究,尝试从数据中找出复杂的模式。

作为数据科学家,你可以训练机器学习模型以从数据中找出模式。 可以使用这些模式来生成新的见解或预测。 例如,可以预测在未来一周内预期销售的产品数量。

尽管训练模型很重要,但它并不是数据科学项目的唯一任务。 在探索典型的数据科学过程之前,让我们先了解一下可以训练的常见机器学习模型。

探索常见的机器学习模型

机器学习的目的是训练可以识别大量数据中的模式的模型。 然后,你可以使用这些模式进行预测,从而提供可以对其执行操作的新见解。

机器学习可以展现出无穷的可能性,因此,我们首先来了解四种常见类型的机器学习模型:

Diagram of the four common types of machine learning models.

  1. 分类:预测分类值,例如客户是否可能会流失。
  2. 回归:预测数值,例如产品的价格。
  3. 聚类分析:将类似的数据点分到群集或组中。
  4. 预测:根据时序数据预测未来的数值,例如下个月的预期销售额。

若要决定需要训练哪种类型的机器学习模型,首先需要了解业务问题和可用的数据。

了解数据科学过程

若要训练机器学习模型,该过程通常涉及以下步骤:

Diagram of sequential steps in the data science process.

  1. 定义问题:与业务用户和分析师一起决定模型应预测的内容以及何时成功。
  2. 获取数据:通过将数据存储在湖屋中来查找数据源并进行访问。
  3. 准备数据:通过将数据从湖屋读取到笔记本中来浏览数据。 根据模型的要求清理和转换数据。
  4. 训练模型:通过使用 MLflow 跟踪试验,根据试验和错误来选择算法和超参数值。
  5. 生成见解:使用模型批量评分来生成请求的预测。

作为数据科学家,你大部分时间都花在准备数据和训练模型上。 你准备数据的方式以及选择哪种算法来训练模型可能会影响模型的成功。

可以使用适用于所选语言的开放源代码库来准备和训练模型。 例如,如果使用 Python,则可以使用 Pandas 和 Numpy 准备数据,并使用 Scikit-LearnPyTorchSynapseML 等库来训练模型。

试验时,你想要大致了解已训练的所有不同模型。 你需要了解你的选择如何影响模型的成功。 通过在 Microsoft Fabric 中使用 MLflow 跟踪试验,你可以轻松管理和部署已训练的模型。