自动执行数据转换

已完成

当你想要生成有效的模型时,为机器学习准备数据是必要的步骤。 由于 Spark 的算力,Azure Databricks 可以高效地处理和准备大型数据集。

让我们了解如何在 Azure Databricks 中执行机器学习工作流中与数据相关的每个步骤。

将收集的数据存储在 Azure 存储中

从各种源收集数据时,最好将数据存储在 Azure Blob 存储或 Azure Data Lake 之类的存储解决方案中。

将数据存储在 Azure 存储解决方案中而不是直接存储在 Azure Databricks 中可以提供更好的可伸缩性、增强的安全性以及与其他 Azure 服务的集成。

Azure 存储解决方案为管理大型数据集提供了一个可靠灵活的环境,确保数据随时可供处理和分析。

若要管理对云存储中存储的所有数据的访问,请使用 Unity Catalog。 Unity Catalog 为所有数据资产提供统一的治理解决方案,使你能够管理对整个数据资产的权限和访问控制。

探索和准备数据

连接到数据后,可以通过探索性数据分析 (EDA) 来探索数据。 根据你的发现,可以准备数据来处理缺失的数据、执行特征工程,以及执行任何你认为对模型性能有益的其他数据转换。

要进行初步分析,可以使用 Databricks 笔记本来探索和了解数据。 可以使用 Spark SQL 或 PySpark 处理大型数据集、汇总数据、检查 null 值和了解数据分布。

在 Azure Databricks 中自动执行特征工程

自动化特征工程工具和库(例如 Featuretools 和 AutoFeat)可以简化特征生成和选择过程,因此变得越来越受欢迎。 这些工具使用算法自动从原始数据创建特征,评估其重要性,然后选择最相关的特征来建模。 此方法节省了时间并减少了对手动特征工程的依赖。

在 Azure Databricks 中自动执行数据转换

探索数据后,可以通过设置管道来自动执行数据转换。 实现自动化的一种方法是在 Azure Databricks 中设置作业,以将笔记本和脚本自动化。 使用 Azure Databricks 作业可以计划笔记本或 JAR 文件,并将其作为作业来运行,从而可以自动执行数据处理工作流。

若要在 Azure Databricks 中设置作业,请执行以下步骤:

  1. 创建作业:在 Databricks 工作区中,导航到作业选项卡并选择 Create job。 提供作业的名称,并指定要运行的笔记本或 JAR 文件。
  2. 配置作业:设置作业的参数,例如群集配置、作业运行计划以及任何依赖项。 还可以为作业状态更新指定电子邮件通知。
  3. 运行并监视作业:配置作业后,可以手动运行该作业,或者让其根据设置的计划运行。 可以监视作业的进度,并查看日志来排查任何问题。

提示

详细了解如何创建和运行 Azure Databricks 作业

或者,可以使用 Azure 服务来创建自动化数据管道。

使用 Azure 数据工厂自动进行数据集成

Azure 数据工厂是用于生成和管理数据管道的工具。 它可让你创建数据驱动的工作流用于协调数据移动和转换。

若要在 Azure 数据工厂中创建数据管道,请执行以下步骤:

  1. 创建数据工厂:在 Azure 门户中,创建新的数据工厂实例。
  2. 创建管道:在数据工厂 UI 中,创建新的管道并向其添加活动。 活动可以包括数据移动、数据转换和控制流操作。
  3. 配置活动:设置每个活动的参数,例如源和目标数据存储、转换逻辑和任何依赖项。
  4. 计划和监视:将管道计划为按指定的间隔运行,并监视其执行。 可以查看日志,并针对任何问题设置警报。

提示

详细了解 Azure 数据工厂

通过使用 Azure Databricks 作业或 Azure 数据工厂自动执行数据转换和工作流,可以确保一致的数据处理,使机器学习模型更加高效和可靠。