Criar um extrator no Microsoft Syntex
Aplica-se a: ✓ Processamento de documentos não estruturados
Antes ou depois de criar um modelo de classificador para automatizar a identificação e classificação de tipos de documentos específicos, você pode optar por adicionar extratores ao seu modelo para extrair informações específicas desses documentos. Por exemplo, você pode desejar que seu modelo não apenas identifique todos os documentos de Renovação do Contrato adicionados à sua biblioteca de documentos, mas também exiba a Data de Início do Serviço para cada documento como um valor de coluna na biblioteca de documentos.
É necessário criar um extrator para cada entidade no documento que se deseja extrair. Em nosso exemplo, queremos extrair a Data de Início do Serviço para cada documento de Renovação de Contrato identificado pelo modelo. Queremos poder ver uma exibição na biblioteca de documentos de todos os documentos de Renovação de Contrato , com uma coluna que mostra o valor da data de início do serviço de cada documento.
Observação
Para criar um extrator, você utiliza os mesmos arquivos que carregou anteriormente para treinar o classificador.
Nomeie seu extrator
Na página inicial do modelo, no bloco Criar e treinar extratores , selecione Extrator de trem.
Na tela Novo extrator de entidade, digite o nome do seu extrator no campo Novo nome do extrator. Por exemplo, nomeie a Data de Início do Serviço se você quiser extrair a data de início do serviço de cada documento de Renovação do Contrato. Também é possível optar por reutilizar uma coluna anteriormente criada (por exemplo, uma coluna de metadados gerenciados).
Por padrão, o tipo de coluna é uma única linha de texto. Se você quiser alterar o tipo de coluna, selecione Configurações avançadas>Tipo de coluna e selecione o tipo que deseja usar.
Observação
Para extratores com o tipo de coluna Linha única do texto, o limite máximo de caracteres é 255. Todos os caracteres selecionados que excedem o limite são truncados. Para selecionar mais de 255 caracteres, escolha as várias linhas do tipo de coluna de texto ao criar o extrator.
Por padrão, Várias linhas de colunas de texto são criadas com um limite para a quantidade de texto que pode ser adicionada. Nesse caso, o texto extraído pode parecer truncado. Se isso ocorrer, a configuração de coluna Permitir comprimento ilimitado em bibliotecas de documentos poderá ser usada para remover o limite.
Quando terminar, selecione Criar.
Adicione um rótulo
A próxima etapa é rotular a entidade que você deseja extrair nos seus exemplos de arquivos de treinamento.
A criação do extrator abre a página do extrator. Aqui você vê uma lista com seus arquivos de amostra, e o primeiro arquivo da lista é exibido no visualizador.
No visualizador, selecione os dados que deseja extrair dos arquivos. Por exemplo, se você quiser extrair a Data de Início do Serviço, realce o valor da data no primeiro arquivo (segunda-feira, 14 de outubro de 2022). e selecione Salvar. Você deve ver a exibição do valor do arquivo na lista de exemplos Rotulados, na coluna Rótulo.
Selecione Próximo arquivo para arquivar automaticamente e abrir o próximo arquivo na lista no visualizador. Ou selecione Salvar e depois selecione outro arquivo da lista Exemplos rotulados.
No visualizador, repita as etapas 1 e 2 e, em seguida, repita até salvar o rótulo em todos os cinco arquivos.
Uma vez rotulados os cinco arquivos, um banner de notificação informa que você deve passar para o treinamento. É possível escolher entre etiquetar mais documentos ou avançar para o treinamento.
Usar a ferramenta Procurar para pesquisar seu arquivo
Você pode usar o recurso Encontrar para procurar uma entidade em seu documento que você deseja rotular.
O recurso Localizar é útil se você estiver pesquisando um documento grande ou se houver várias instâncias da entidade no documento. Se você encontrar várias instâncias, poderá selecionar a de que precisa nos resultados da pesquisa para ir até esse local no visualizador para rotulá-la.
Adicione uma explicação
Para nosso exemplo, vamos criar uma explicação que forneça uma dica sobre o formato de entidade em si e as variações que ela pode ter nos documentos de exemplo. Por exemplo, um valor de data pode estar em vários formatos diferentes, como:
- 10/14/2022
- 14 de outubro de 2022
- Segunda-feira, 14 de outubro de 2022
Para ajudar a identificar a Data de Início do Serviço, você pode criar uma explicação de padrão.
- Na seção Explicação, selecione Novo e digite um nome (por exemplo, Data).
- Para Tipo, selecione Lista de padrões.
- Para Valor, forneça a variação de data conforme aparecem nos arquivos de amostra. Por exemplo, se você tem formatos de data que aparecem como 0/00/0000, digite quaisquer variações que aparecem em seus documentos, como por exemplo:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- Selecione Salvar.
Observação
Para obter mais informações sobre os tipos de explicação, consulte Tipos de explicação.
Usar a biblioteca de explicações
Para criar explicações para itens como datas, é mais fácil usar a biblioteca de explicações do que inserir manualmente todas as variações. A biblioteca de explicação é um conjunto de frases predefinidas e explicações de padrões. A biblioteca tenta fornecer todos os formatos para listas comuns de frases ou padrões, como datas, números de telefone, CEP e muitos outros.
Para o exemplo data de início do serviço , é mais eficiente usar a explicação pré-criada para Date na biblioteca de explicações:
Na seção Explicação, selecione Novo, e então selecione Na biblioteca de explicações.
Na biblioteca de explicações, selecione Data. Você pode ver todas as variações de data que são reconhecidas.
Clique em Adicionar.
Na página Criar uma explicação, a informação Data da biblioteca de explicações preenche automaticamente os campos. Selecione Salvar.
Treinar o modelo
Salvar sua explicação inicia o treinamento. Se o modelo tiver informações suficientes para extrair os dados de seus arquivos de exemplo rotulados, você verá cada arquivo rotulado com Match.
Se a explicação não tiver informações suficientes para localizar os dados que você deseja extrair, cada arquivo será rotulado com Incompatibilidade. Você pode selecionar arquivos incompatíveis para ver mais informações sobre por que houve uma incompatibilidade.
Adicione outra explicação
Muitas vezes, a incompatibilidade é uma indicação de que a explicação que fornecemos não forneceu informações suficientes para extrair o valor da data de início do serviço para corresponder aos nossos arquivos rotulados. Talvez seja necessário editá-lo ou adicionar outra explicação.
Para nosso exemplo, observe que o texto data de Início do Serviço de sempre precede o valor real. Para ajudar a identificar a Data de Início do Serviço, você precisa criar uma explicação de frase.
Na seção Explicação, selecione Novo, e então digite um nome (por exemplo, Sequencia de Prefixo).
Para o Tipo, selecione Lista de frases.
Utilize a Data de Início do Serviço como o valor.
Selecione Salvar.
Treine novamente o modelo
Salvar a explicação inicia o treinamento novamente, desta vez usando as duas explicações do exemplo. Se o seu modelo tiver informações suficientes para extrair os dados dos arquivos de amostra rotulados, você verá cada arquivo rotulado com Compatível.
Se você receber novamente um Incompatível em seus arquivos rotulados, provavelmente precisará criar outra explicação para fornecer ao modelo mais informações para identificar o tipo de documento ou considerar fazer alterações nos existentes.
Teste o seu modelo
Se você receber uma compatibilidade em seus arquivos de amostra rotulados, agora você pode testar seu modelo no restante dos arquivos de amostra não rotulados. Essa etapa é opcional, mas útil para avaliar a "aptidão" ou a preparação do modelo antes de usá-lo, testando-o em arquivos que o modelo não viu antes.
Na home page do modelo, selecione a guia Teste . Isso executará o modelo em seus arquivos de exemplo não rotulados.
Na lista Arquivos de teste, seus arquivos de exemplo são exibidos para mostrar se o modelo é capaz de extrair as informações de que você precisa. Utilize essas informações para ajudar a determinar a eficácia do seu classificador na identificação dos seus documentos.
Refinar ainda mais um extrator
Se você tiver entidades duplicadas e quiser extrair apenas um valor ou um determinado número de valores, poderá definir uma regra para especificar como deseja que ela seja processada. Para adicionar uma regra para refinar informações extraídas, siga estas etapas:
Na página inicial do modelo, na seção Extratores de entidade , selecione o extrator que você deseja refinar e selecione Refinar informações extraídas.
Na página Refinar informações extraídas , selecione uma das seguintes regras:
- Manter um ou mais dos primeiros valores
- Manter um ou mais dos últimos valores
- Remover valores duplicados
- Manter uma ou mais das primeiras linhas
- Manter uma ou mais das últimas linhas
Insira o número de linhas ou valores que você deseja usar e selecione Refinar.
Se você quiser editar uma regra alterando o número de linhas ou valores, selecione o extrator que deseja editar, selecione Refinar informações extraídas, altere o número e selecione Salvar.
Ao testar o extrator, você poderá ver o refinamento na coluna Resultado do Refinamento da lista Arquivos de Teste .
Se você quiser excluir uma regra de refinamento em um extrator, selecione o extrator do qual deseja remover a regra, selecione Refinar informações extraídas e selecione Excluir.
Confira também
Aproveitar a taxonomia do repositório de termos ao criar um extrator