文本分析

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍机器学习 Studio (经典) 中包含的文本分析模块。 这些模块提供了用于处理结构化和非结构化文本的专用计算工具,包括:

  • 用于预处理文本的多个选项。
  • 语言检测。
  • 使用可自定义的 n 语法字典从文本创建功能。
  • 功能哈希处理,无需预处理或高级语言分析即可有效地分析文本。
  • Vowpal Wabbit,适用于对文本非常快速的机器学习。 Vowpal Wabbit 支持功能哈希、主题建模 (LDA) 和分类。
  • 命名实体识别,用于从非结构化文本中提取人员、地点和组织的名称。

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

示例

有关使用机器学习进行文本分析的示例,请参阅Azure AI 库

  • 新闻分类:使用功能哈希将文章分类到预定义的类别列表中。

  • 查找类似的公司:使用维基百科文章的文本对公司进行分类。

  • 文本分类:演示在情绪分析中使用 Twitter 消息中的文本的端到端过程 (由五部分组成的示例) 。

模块列表

机器学习 Studio (经典) 中的文本分析类别包括以下模块:

另请参阅