文本分析
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
本文介绍机器学习 Studio (经典) 中包含的文本分析模块。 这些模块提供了用于处理结构化和非结构化文本的专用计算工具,包括:
- 用于预处理文本的多个选项。
- 语言检测。
- 使用可自定义的 n 语法字典从文本创建功能。
- 功能哈希处理,无需预处理或高级语言分析即可有效地分析文本。
- Vowpal Wabbit,适用于对文本非常快速的机器学习。 Vowpal Wabbit 支持功能哈希、主题建模 (LDA) 和分类。
- 命名实体识别,用于从非结构化文本中提取人员、地点和组织的名称。
示例
有关使用机器学习进行文本分析的示例,请参阅Azure AI 库:
新闻分类:使用功能哈希将文章分类到预定义的类别列表中。
查找类似的公司:使用维基百科文章的文本对公司进行分类。
文本分类:演示在情绪分析中使用 Twitter 消息中的文本的端到端过程 (由五部分组成的示例) 。
模块列表
机器学习 Studio (经典) 中的文本分析类别包括以下模块:
- 检测语言:检测输入文件中每行的语言。
- 从文本中提取关键短语:从给定文本中提取关键短语。
- 从文本提取 n 元语法特征:创建 n 语法字典功能,并对其执行功能选择。
- 功能哈希:使用 Vowpal Wabbit 库将文本数据转换为整数编码的功能。
- 潜在的 Dirichlet 分配:通过使用 LDA 的 Vowpal Wabbit 库执行主题建模。
- 命名实体识别:识别文本列中的命名实体。
- 预处理文本:对文本执行清理操作。
- 评分 Vowpal Wabbit 7-4 型号:使用 Vowpal Wabbit 机器学习系统的7-4 版对 Azure 的输入进行评分。
- 评分 Vowpal Wabbit 7-10 型号:使用 Vowpal Wabbit 机器学习系统的7-10 版对 Azure 的输入进行评分。
- 评分 Vowpal Wabbit 8 模型:通过使用 Vowpal Wabbit 机器学习系统的版本8来评分 Azure 输入。
- 定型 Vowpal Wabbit 7-4 模型:使用 Vowpal Wabbit 机器学习系统版本7-4 训练模型。
- 定型 Vowpal Wabbit 7-10 模型:使用 Vowpal Wabbit 机器学习系统版本7-10 训练模型。
- 定型 Vowpal Wabbit 8 模型:使用 Vowpal Wabbit 机器学习系统的版本8训练模型。