了解数据科学过程

将数据可视化是从数据中提取见解的常用方法。每当有复杂的数据集时，最好深入研究，尝试从数据中找出复杂的模式。

作为数据科学家，你可以训练机器学习模型以从数据中找出模式。可以使用这些模式来生成新的见解或预测。例如，可以预测在未来一周内预期销售的产品数量。

尽管训练模型很重要，但它并不是数据科学项目的唯一任务。在探索典型的数据科学过程之前，让我们先了解一下可以训练的常见机器学习模型。

探索常见的机器学习模型

机器学习的目的是训练可以识别大量数据中的模式的模型。然后，你可以使用这些模式进行预测，从而提供可以对其执行操作的新见解。

机器学习可以展现出无穷的可能性，因此，我们首先来了解四种常见类型的机器学习模型：

Diagram of the four common types of machine learning models.

若要决定需要训练哪种类型的机器学习模型，首先需要了解业务问题和可用的数据。

若要训练机器学习模型，该过程通常涉及以下步骤：

Diagram of sequential steps in the data science process.

作为数据科学家，你大部分时间都花在准备数据和训练模型上。你准备数据的方式以及选择哪种算法来训练模型可能会影响模型的成功。

可以使用适用于所选语言的开放源代码库来准备和训练模型。例如，如果使用 Python，则可以使用 Pandas 和 Numpy 准备数据，并使用 Scikit-Learn、PyTorch 或 SynapseML 等库来训练模型。

试验时，你想要大致了解已训练的所有不同模型。你需要了解你的选择如何影响模型的成功。通过在 Microsoft Fabric 中使用 MLflow 跟踪试验，你可以轻松管理和部署已训练的模型。