自动执行数据转换

当你想要生成有效的模型时，为机器学习准备数据是必要的步骤。由于 Spark 的算力，Azure Databricks 可以高效地处理和准备大型数据集。

让我们了解如何在 Azure Databricks 中执行机器学习工作流中与数据相关的每个步骤。

将收集的数据存储在 Azure 存储中

从各种源收集数据时，最好将数据存储在 Azure Blob 存储或 Azure Data Lake 之类的存储解决方案中。

将数据存储在 Azure 存储解决方案中而不是直接存储在 Azure Databricks 中可以提供更好的可伸缩性、增强的安全性以及与其他 Azure 服务的集成。

Azure 存储解决方案为管理大型数据集提供了一个可靠灵活的环境，确保数据随时可供处理和分析。

若要管理对云存储中存储的所有数据的访问，请使用 Unity Catalog。 Unity Catalog 为所有数据资产提供统一的治理解决方案，使你能够管理对整个数据资产的权限和访问控制。

提示

连接到数据后，可以通过探索性数据分析 (EDA) 来探索数据。根据你的发现，可以准备数据来处理缺失的数据、执行特征工程，以及执行任何你认为对模型性能有益的其他数据转换。

要进行初步分析，可以使用 Databricks 笔记本来探索和了解数据。可以使用 Spark SQL 或 PySpark 处理大型数据集、汇总数据、检查 null 值和了解数据分布。

自动化特征工程工具和库（例如 Featuretools 和 AutoFeat）可以简化特征生成和选择过程，因此变得越来越受欢迎。这些工具使用算法自动从原始数据创建特征，评估其重要性，然后选择最相关的特征来建模。此方法节省了时间并减少了对手动特征工程的依赖。

探索数据后，可以通过设置管道来自动执行数据转换。实现自动化的一种方法是在 Azure Databricks 中设置作业，以将笔记本和脚本自动化。使用 Azure Databricks 作业可以计划笔记本或 JAR 文件，并将其作为作业来运行，从而可以自动执行数据处理工作流。

若要在 Azure Databricks 中设置作业，请执行以下步骤：

提示

或者，可以使用 Azure 服务来创建自动化数据管道。

Azure 数据工厂是用于生成和管理数据管道的工具。它可让你创建数据驱动的工作流用于协调数据移动和转换。

若要在 Azure 数据工厂中创建数据管道，请执行以下步骤：

提示

通过使用 Azure Databricks 作业或 Azure 数据工厂自动执行数据转换和工作流，可以确保一致的数据处理，使机器学习模型更加高效和可靠。