你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
运行状况自定义文本分析中的实体组件
在运行状况自定义文本分析中,实体是从非结构化输入文本中提取的相关信息片段。 可通过不同的方法提取实体。 可通过上下文学习实体、从列表中匹配实体,或者通过预生成的已识别的实体检测实体。 项目中的每个实体都由这些方法中的一种或多种组成,这些方法被定义为实体的组件。 当实体由多个组件定义时,其预测可能会重叠。 可以使用“实体选项”中的一组固定选项来确定实体预测在其组件重叠时的行为。
组件类型
实体组件确定提取实体的方法。 实体可包含一个组件,以此确定用于提取实体的唯一方法,也可以包含多个组件来扩展定义和提取实体的方法。
这些运行状况文本分析实体将作为具有预生成组件的实体自动加载到项目中。 你可以为具有预生成组件的实体定义列表组件,但不能添加已习得的组件。 同样,你可以使用已习得的组件和列表组件创建新实体,但不能使用其他预生成组件填充这些实体。
已学习组件
已习得的组件将使用你为文本添加的实体标记来训练机器学习模型。 模型将学习根据文本中的上下文来预测实体的位置。 你提供的标签将会作为一些示例,用以说明如何根据实体周围单词的含义和标记的单词判断实体在文本中的位置。 只有在为实体的数据添加标签后,才能完成对此组件的定义。 如果未标记任何数据,则没有已习得的组件。
运行状况文本分析实体(默认情况下具有预生成组件)无法通过习得的组件进行扩展,这意味着它们不需要(也不接受)进一步的标记即可正常运行。
列表组件
列表组件表示一组固定、封闭的相关单词及其同义词。 该组件根据你作为同义词提供的值列表执行精确的文本匹配。 每个同义词属于一个“列表键”,该项可用作同义词的规范化标准值,如果列表组件匹配,则该值将在输出中返回。 列表项不用于匹配。
在多语言项目中,可为每种语言指定一组不同的同义词。 使用预测 API 时,可以在输入请求中指定语言,这样就只会与该语言关联的同义词进行匹配。
预生成组件
这些运行状况文本分析实体将作为具有预生成组件的实体自动加载到项目中。 你可以为具有预生成组件的实体定义列表组件,但不能添加已习得的组件。 同样,你可以使用已习得的组件和列表组件创建新实体,但不能使用其他预生成组件填充这些实体。 具有预生成组件的实体均经过预训练,无需使用任何标签即可提取与其类别相关的信息。
实体选项
为实体定义多个组件时,其预测可能会重叠。 发生重叠时,每个实体的最终预测由以下选项之一确定。
合并组件
当组件重叠时,可以通过取所有组件的并集,将组件合并成一个实体。
使用此方法可以合并重叠的所有组件。 合并组件后,你将获得与某个列表或预生成组件关联的所有附加信息(如果存在)。
示例
假设你有一个名为 Software 的实体,该实体具有一个包含“Proseware OS”作为条目的列表组件。 你的输入数据中包含“我想要购买 Proseware OS 9”,其中的“Proseware OS 9”被标记为“软件”:
使用合并组件,实体将以“Proseware OS 9”返回完整上下文,以及列表组件中的键:
假设你使用了相同的语句,但习得的组件仅预测了“OS 9”:
使用合并组件,该实体仍以“Proseware OS 9”返回,以及列表组件中的键:
请勿合并组件
每个重叠的组件将作为实体的单独实例返回。 使用此选项做出预测后应用你自己的逻辑。
示例
假设你有一个名为 Software 的实体,该实体具有一个包含“Proseware Desktop”作为条目的列表组件。 你的输入数据中包含“我想要购买 Proseware Desktop Pro”,其中的“Proseware Desktop Pro”被标记为“软件”:
如果不合并组件,则实体将返回两次:
如何使用组件和选项
使用组件可以灵活地以多种方式定义实体。 合并组件时,需确保表示每个组件,并减少预测中返回的实体数量。
一种常见做法是使用预生成组件可能不支持的值列表来扩展该预生成组件。 例如,如果你有一个“药物名称”(Medication Name) 实体,其中添加了一个 Medication.Name
预生成组件,该实体可能无法预测特定于你的域的所有药物名称。 你可以使用列表组件来扩充“药物名称”实体的值,从而扩充预生成的组件,在其中添加你自己的药物名称值。
有时,你可能希望通过上下文来提取某个实体,例如某个医疗设备。 你需要为相应的医疗设备习得组件做好标记,以便系统根据医疗设备在句子中的位置来学习确定其位置的方法。 你还可能需要一份事先知道一定要提取的医疗设备的列表。 将两个组件合并到一个实体可以获取实体的这两个选项。
不合并组件时,可以允许每个组件充当独立的实体提取器。 此选项的用法之一是将从列表中提取的实体与通过习得组件或预生成组件提取的实体分开,以区别处理和对待它们。