ML Studio (经典) 模块说明

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本主题概述了机器学习 Studio 中包含的所有模块 (经典) ,这是一个交互式的可视工作区,可轻松生成和测试预测模型。

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

什么是模块?

在机器学习 Studio (经典) ,模块是用于创建试验的构建基块。 每个模块都封装了可对工作区中的数据执行操作的特定机器学习算法、函数或代码库。 这些模块旨在接受来自其他模块的连接,以共享和修改数据。

每个模块中运行的代码来自多个源。 其中包括开放源代码库和语言、Microsoft Research 开发的算法以及用于使用 Azure 和其他云服务的工具。

提示

正在查找机器学习算法? 请参阅 "机器学习" 类别,其中包含决策树、群集、神经网络以及其他各模块的模块。 训练评估类别包括用于帮助定型和测试模型的模块。

通过连接和配置模块,你可以创建一个工作流,该工作流读取外部源中的数据、准备分析并应用机器学习算法,并生成结果。

在机器学习 Studio 中打开试验 (经典) 时,可在左侧导航窗格中查看当前模块的完整列表。 将这些构建基块拖动到试验中,然后将其连接起来创建一个名为试验的完整机器学习工作流。

有时模块会进行更新,以添加新功能或删除旧代码。 发生这种情况时,你创建的使用该模块的任何试验都将继续运行。 但下次打开此试验时,系统将提示您升级该模块,或使用不同的模块。

示例

有关如何构建完整的机器学习试验的示例,请参阅以下教程:

模块类别

为了更轻松地查找相关模块,机器学习 Studio 中的机器学习工具 (经典) 按这些类别进行分组。

数据格式转换

使用这些模块将数据转换为其他机器学习工具或格式所用的格式之一。

  • 数据输入和输出

    使用这些模块从云数据源(包括 Hadoop 群集、Azure 表存储和 web Url)中读取数据和模型。 你还可以使用这些模块将结果写入存储或数据库。

  • 数据转换

    使用这些模块准备数据以进行分析。 您可以更改数据类型、将列标记为特征或标签、生成功能以及缩放或规范化数据。

  • Filter

    转换从数字信号处理派生的数值数据。

  • 带计数的 Learning

    使用联合概率分布来构建简洁地描述大型数据集的功能。

  • 操作

    此组提供各种适用于数据科学的工具。 例如,您可以删除或替换缺失值,选择列的子集,添加列,或连接两个数据集。

  • 样本和拆分

    按条件或大小划分数据集,以创建定型集和测试集,或隔离某些行。

  • 缩放和约简

    转换数值数据。

功能选择

使用这些模块通过广泛研究的统计方法来标识数据中的最佳特征。

机器学习

此组包含机器学习支持的大多数机器学习算法。

它还包含一些模块,旨在通过对模型进行定型、生成评分并评估模型性能来支持这些算法。

  • 评估

    训练模型后,使用这些工具来度量模型的准确性。

  • 初始化

    这些模块提供了机器学习算法,你可以通过设置参数自定义该算法。 本部分中的算法按类型分组:

  • 评分

    使用这些模块可以通过算法传递新数据,并生成一组结果进行评估。 你还可以将评分结果用作预测性服务的一部分。

  • 训练

    这些模块根据你提供的数据对已初始化的机器学习模型进行定型。

OpenCV 库模块

使用这些模块可以轻松访问常用的开源库以进行图像处理和图像分类。

R 语言模块

使用这些模块在试验中添加自定义 R 代码,或基于 R 包实现机器学习模型。

Python 语言模块

使用这些模块在试验中添加自定义 Python 代码。

统计函数

使用这些模块计算概率分布、创建自定义计算以及执行各种与数值变量相关的其他任务。

文本分析

使用这些模块来执行功能哈希和命名实体识别,或者使用自然语言处理工具来预处理文本。

时序

通过使用专门为时序数据设计的算法,使用这些模块来评估趋势中的异常。

机器学习 Studio (经典) 模块不会尝试复制其他工具(例如 Azure 数据工厂)中支持的数据集成工具。 相反,模块提供了特定于机器学习的功能:

  • 数据的规范化、分组和缩放
  • 计算数据的统计分布
  • 转换为其他机器学习格式
  • 导入用于机器学习试验和导出结果的数据
  • 文本分析、功能选择和维数缩减

如果需要更复杂的数据操作和存储设备,请参阅以下内容:

另请参阅