从文本中提取关键短语
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
从给定文本中提取关键短语
类别:文本分析
模块概述
本文介绍如何使用 机器学习 Studio (经典) 中的"从文本中提取关键短语"模块预处理文本列。 给定自然语言文本列后,模块将提取一个或多个有意义的短语。 短语可能是单个单词、复合名词或修饰符加上名词。
此模块是自然语言处理 API 的包装器,用于关键短语提取。 由于各种原因,这些短语在句子上下文中被分析为可能有意义:
- 短语捕获句子的主题。
- 短语包含指示情绪的修饰符和名词的组合。
例如,假设所分析的句子为:"这是一家很棒的酒店,有独特的餐厅且友好的员工。"
" 从文本中提取关键短语" 模块可能会返回以下关键短语:
- 酒店
- 友好的员工
- 唯一的花
如何配置从文本中提取关键短语
若要提取关键短语,必须连接包含文本列的数据集。
将"从文本中提取关键短语"模块添加到 机器学习 Studio (经典) 。 然后,连接至少具有一个全文列的数据集。
使用列选择器选择字符串类型的列,从中提取关键短语。
对于 "语言",请选择在分析短语时使用的语言。 如果指定语言,则仅输出目标语言中的短语。
如果文本列包含多种语言的短语,请选择选项"在列中 标识的语言"。 将显示一个新的列选择器,用于选择数据集中包含语言标识符的列。 语言标识符可以是语言名称或 Iso6391 区域性标识符。 例如,"英语"或"en"是可接受的。
提示
在运行 "从文本中提取关键短语"之前,请使用" 检测 语言"模块来标识每行中的语言并生成标识符。 如果语言标识符列包含从文本中提取关键短语不支持的任何 语言,则引发错误。
结果
模块的输出是包含以逗号分隔的关键短语列的数据集。
例如,以下示例结果适用于包含多种语言评论的输入数据集:
关键短语 |
---|
story, 则使用中文, 好书, adventure story, avalanche of event, good characters |
primer misterio,personjes,fan,aventura,isla |
所有输出短语都包含在单个列中;不会传递其他列,并且不会添加标识符。 但是,如果要将输出短语与源文本对齐,可以使用"添加列"模块将输出短语与输入 重新 组合。
关键短语提取的输出不标记单个短语的语言。
如果包含"提取关键短语"模块不支持的语言, (0039) 。 若要避免错误,请确保筛选出具有不兼容语言标识符的输入文本。
如果其他语言的行很少,则还可以省略语言标识符,然后使用单个语言选择分析所有文本,从而避免错误。 但是,当你这样做时,结果非常差,因为其他语言中的整个句子可能输出为单个关键短语。
示例
以下示例演示如何使用此模块提取关键短语,然后从以下短语生成词云:提取关键短语和 显示单词云
有关使用 Azure AI 库 处理文本的更多示例,请参阅机器学习。
技术说明
此模块当前支持以下语言:
- 荷兰语
- 英语
- 法语
- 德语
- 意大利语
- 西班牙语
对于其他语言,请考虑在 Azure 认知服务 中文本分析 API。 有关详细信息,请参阅如何在 文本分析
预期输入
名称 | 类型 | 说明 |
---|---|---|
数据集 | 数据表 | 包含要处理的文本的表。 |
模块参数
名称 | 类型 | 范围 | 可选 | 默认 | 说明 |
---|---|---|---|---|---|
区域性语言列 | ColumnSelection | language:Column 包含语言 | 包含区域性语言信息的列的名称或基于一的索引 | ||
文本列 | ColumnSelection | 必选 | 文本列的名称或从一个索引。 | ||
语言 | T_Language | 英语、西班牙语、法语、荷兰语、德语、意大利语、列包含语言 | 必选 | 英语 | 选择要处理的文本的语言。 |
Outputs
名称 | 类型 | 说明 |
---|---|---|
结果数据集 | 数据表 | 提取的关键短语 |
例外
异常 | 描述 |
---|---|
错误 0003 | 如果一个或多个输入为 NULL 或为空,将出现异常。 |
错误 0010 | 如果输入数据集的列名应匹配但不匹配,将出现异常。 |
错误 0016 | 如果传递给模块的输入数据集应该具有兼容的列类型,而实际没有,将出现异常。 |
错误 0008 | 如果参数不在范围内,将出现异常。 |
有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码。
有关 API 异常的列表,请参阅机器学习 REST API代码。