Componentes de entidade em análise de texto personalizada para integridade
Na Análise de Texto personalizada para integridade, as entidades são partes relevantes de informações extraídas do seu texto de entrada não estruturado. Uma entidade pode ser extraída por diferentes métodos. Eles podem ser aprendidos através do contexto, correspondidos a partir de uma lista ou detetados por uma entidade reconhecida pré-construída. Cada entidade em seu projeto é composta por um ou mais desses métodos, que são definidos como componentes da sua entidade. Quando uma entidade é definida por mais de um componente, suas previsões podem se sobrepor. Você pode determinar o comportamento de uma previsão de entidade quando seus componentes se sobrepõem usando um conjunto fixo de opções nas opções de Entidade.
Tipos de componentes
Um componente de entidade determina uma maneira de extrair a entidade. Uma entidade pode conter um componente, que determinaria o único método que seria usado para extrair a entidade, ou vários componentes para expandir as maneiras pelas quais a entidade é definida e extraída.
As entidades de Análise de Texto para integridade são carregadas automaticamente em seu projeto como entidades com componentes pré-construídos. Você pode definir componentes de lista para entidades com componentes pré-criados, mas não pode adicionar componentes aprendidos. Da mesma forma, você pode criar novas entidades com componentes aprendidos e listar, mas não pode preenchê-las com componentes pré-criados adicionais.
Componente aprendido
O componente aprendido usa as tags de entidade com as quais você rotula seu texto para treinar um modelo aprendido por máquina. O modelo aprende a prever onde a entidade está, com base no contexto dentro do texto. Seus rótulos fornecem exemplos de onde se espera que a entidade esteja presente no texto, com base no significado das palavras ao seu redor e como as palavras que foram rotuladas. Esse componente só será definido se você adicionar rótulos aos seus dados para a entidade. Se você não rotular nenhum dado, ele não terá um componente aprendido.
A Análise de Texto para entidades de integridade, que por padrão têm componentes pré-construídos, não pode ser estendida com componentes aprendidos, o que significa que elas não exigem ou aceitam rotulagem adicional para funcionar.
Componente Lista
O componente de lista representa um conjunto fixo e fechado de palavras relacionadas, juntamente com seus sinônimos. O componente executa uma correspondência de texto exata com a lista de valores que você fornece como sinônimos. Cada sinônimo pertence a uma "chave de lista", que pode ser usada como o valor padrão normalizado para o sinônimo que retornará na saída se o componente de lista for correspondido. As chaves de lista não são usadas para correspondência.
Em projetos multilingues, pode especificar um conjunto diferente de sinónimos para cada língua. Ao usar a API de previsão, você pode especificar o idioma na solicitação de entrada, que corresponderá apenas aos sinônimos associados a esse idioma.
Componente pré-construído
As entidades de Análise de Texto para integridade são carregadas automaticamente em seu projeto como entidades com componentes pré-construídos. Você pode definir componentes de lista para entidades com componentes pré-construídos, mas não pode adicionar componentes aprendidos. Da mesma forma, você pode criar novas entidades com componentes aprendidos e listar, mas não pode preenchê-las com componentes pré-criados adicionais. As entidades com componentes pré-construídos são pré-treinadas e podem extrair informações relacionadas às suas categorias sem rótulos.
Opções de entidade
Quando vários componentes são definidos para uma entidade, suas previsões podem se sobrepor. Quando ocorre uma sobreposição, a previsão final de cada entidade é determinada por uma das seguintes opções.
Combinar componentes
Combine componentes como uma entidade quando eles se sobrepõem, tomando a união de todos os componentes.
Use isso para combinar todos os componentes quando eles se sobrepõem. Quando os componentes são combinados, você obtém todas as informações extras vinculadas a uma lista ou componente pré-criado quando eles estão presentes.
Exemplo
Suponha que você tenha uma entidade chamada Software que tenha um componente de lista, que contém "Proseware OS" como uma entrada. Em seus dados de entrada, você tem "Eu quero comprar Proseware OS 9" com "Proseware OS 9" marcado como Software:
Usando combinar componentes, a entidade retornará com o contexto completo como "Proseware OS 9", juntamente com a chave do componente de lista:
Suponha que você tenha o mesmo enunciado, mas apenas "OS 9" foi previsto pelo componente aprendido:
Com os componentes combinados, a entidade ainda retornará como "Proseware OS 9" com a chave do componente list:
Não combine componentes
Cada componente sobreposto retornará como uma instância separada da entidade. Aplique sua própria lógica após a previsão com esta opção.
Exemplo
Suponha que você tenha uma entidade chamada Software que tenha um componente de lista, que contém "Proseware Desktop" como uma entrada. Em seus dados rotulados, você tem "Eu quero comprar Proseware Desktop Pro" com "Proseware Desktop Pro" rotulado como Software:
Quando você não combina componentes, a entidade retornará duas vezes:
Como usar componentes e opções
Os componentes oferecem a flexibilidade de definir sua entidade de mais de uma maneira. Ao combinar componentes, você garante que cada componente seja representado e reduz o número de entidades retornadas em suas previsões.
Uma prática comum é estender um componente pré-construído com uma lista de valores que o pré-construído pode não suportar. Por exemplo, se você tiver uma entidade Nome do Medicamento, que tenha um Medication.Name
componente pré-construído adicionado a ela, a entidade pode não prever todos os nomes de medicamentos específicos para o seu domínio. Você pode usar um componente de lista para estender os valores da entidade Nome do Medicamento e, assim, estender o pré-construído com seus próprios valores de Nomes de Medicação.
Outras vezes, você pode estar interessado em extrair uma entidade através do contexto, como um dispositivo médico. Você rotularia o componente aprendido do dispositivo médico para saber onde um dispositivo médico é baseado em sua posição dentro da frase. Também pode ter uma lista de dispositivos médicos que já conhece de antemão e que gostaria de extrair sempre. A combinação de ambos os componentes em uma entidade permite que você obtenha ambas as opções para a entidade.
Quando você não combina componentes, permite que cada componente atue como um extrator de entidade independente. Uma maneira de usar essa opção é separar as entidades extraídas de uma lista daquelas extraídas através dos componentes aprendidos ou pré-construídos para manipulá-las e tratá-las de forma diferente.