Utilizar um modelo pré-criado para extrair informações de documentos simples no Microsoft Syntex
O modelo de processamento de documentos simples oferece uma solução flexível e pré-preparado para extrair informações de documentos estruturados básicos, incluindo informações como:
Pares chave-valor – pense nestes como etiquetas e as respetivas informações correspondentes, como "Nome: Adele Vance".
Marcas de seleção – são caixas de verificação ou outras marcas que indicam escolhas ou seleções num documento.
Entidades nomeadas – estes são itens específicos, como nomes de pessoas, locais ou organizações mencionados no texto de um documento.
Códigos de barras – são representações legíveis por computador de dados que podem ser utilizados para fins de controlo ou identificação num documento.
Ao contrário de outros modelos pré-criados com esquemas fixos, este modelo pode identificar chaves que outras pessoas podem perder, fornecendo uma alternativa valiosa à etiquetagem e preparação de modelos personalizados. Este modelo também suporta códigos de barras e deteção de idioma.
Tipos de documentos
O processamento de documentos simples funciona melhor com os tipos de documentos que contêm informações estruturadas, tais como:
Forms – muitas vezes, estes têm campos e etiquetas claros, o que facilita a extração de pares chave-valor.
Faturas – normalmente incluem esquemas consistentes com tabelas e pares chave-valor.
Recibos – à semelhança das faturas, têm dados estruturados que podem ser facilmente extraídos.
Contratos – contém secções e cláusulas bem definidas que podem ser analisadas de forma eficaz.
Extratos bancários – inclua tabelas e dados estruturados ideais para extração.
Estes documentos beneficiam das capacidades de reconhecimento ótico de carateres (OCR) e dos processos de aprendizagem profunda utilizados para extrair pares chave-valor, marcas de seleção, tabelas e entidades nomeadas.
Observação
Atualmente, este modelo está disponível para .pdf e tipos de ficheiro de imagem e em mais de 100 idiomas. Serão adicionados mais tipos de ficheiro suportados em versões futuras.
Para utilizar um modelo de processamento de documentos simples, siga estes passos:
- Passo 1: criar o modelo
- Passo 2: carregar um ficheiro de exemplo para analisar
- Passo 3: selecionar extratores para o modelo
- Passo 4: Aplicar o modelo
Passo 1: criar o modelo
Siga as instruções em Criar um modelo no Syntex para criar um modelo de processamento de documentos simples. Em seguida, continue com os seguintes passos para concluir o modelo.
Passo 2: carregar um ficheiro de exemplo para analisar
Na página Modelos , na secção Adicionar um ficheiro a analisar , selecione Adicionar um ficheiro.
Na página Ficheiros para analisar o modelo , selecione Adicionar para localizar o ficheiro que pretende utilizar.
Na página Adicionar um ficheiro da biblioteca de ficheiros de preparação , selecione o ficheiro e, em seguida, selecione Adicionar.
Na página Ficheiros para analisar o modelo , selecione Seguinte.
Passo 3: selecionar extratores para o modelo
Na página de detalhes do extrator, verá a área do documento à direita da página e o painel Extratores à esquerda. O painel Extratores mostra a lista de extratores que foram identificados no documento.
Os campos de entidade realçados a verde na área do documento são os itens que foram detetados pelo modelo quando analisou o ficheiro. Quando seleciona uma entidade para extrair, o campo realçado muda para azul. Se mais tarde decidir não incluir a entidade, o campo realçado muda para cinzento. Os destaques facilitam a visualização do estado atual dos extratores que selecionar.
Dica
Para ampliar ou reduzir para ler os campos de entidade, utilize a roda de deslocamento do rato ou os controlos de zoom na parte inferior da área do documento.
Selecionar uma entidade de extrator
Pode selecionar um extrator na área do documento ou no painel Extratores, consoante a sua preferência.
- Para selecionar um extrator da área do documento, selecione o campo de entidade.
- Para selecionar um extrator no painel Extratores , na coluna Extrair , selecione a caixa de verificação correspondente à direita do nome da entidade.
Quando seleciona um extrator, a caixa Selecionar extrator? é apresentada na área do documento. A caixa mostra o nome da chave (o nome gerado para o extrator), o valor detetado (o valor desse campo no documento), o tipo de coluna e a opção para selecionar a entidade como um extrator.
O nome da chave é utilizado como o nome da coluna quando o modelo é aplicado a uma biblioteca do SharePoint. Se quiser, pode alterar o nome da chave para ser mais descritivo. O tipo de coluna mostra como as informações são apresentadas numa biblioteca. Pode alterar o tipo de coluna para mostrar como pretende que as informações sejam apresentadas. Quando o modelo é aplicado a uma biblioteca, pode utilizar a formatação de colunas para especificar o aspeto do mesmo no documento.
Continue a selecionar outros extratores que pretende utilizar. Também pode adicionar outros ficheiros para analisar para esta configuração de modelo.
Renomear um extrator
Existem três formas de mudar o nome de um extrator:
Na área do documento da página de detalhes do extrator, selecione o campo de entidade. Na caixa Selecionar extrator? , no campo Nome da chave, introduza um novo nome para o extrator.
No painel Extratores da página de detalhes do extrator, selecione o extrator cujo nome pretende mudar e, em seguida, selecione Mudar o Nome.
Na home page do modelo, na secção Extratores , selecione o extrator cujo nome pretende mudar e, em seguida, selecione Mudar o Nome.
Definir um intervalo de páginas para processamento
Para este modelo, pode especificar o processamento de um intervalo de páginas para um ficheiro em vez de todo o ficheiro. No painel Extratores , na secção Intervalo de páginas, selecione a página que pretende processar. Por predefinição, a definição Intervalo de páginas está vazia. Se não for fornecido nenhum intervalo de páginas, todo o documento será processado. Para obter mais informações, consulte Definir um intervalo de páginas para extrair informações de páginas específicas.
Detetar o idioma de um documento
Para este modelo, pode detetar o idioma de um documento e extraí-lo para uma coluna. No painel Extratores , na secção Deteção de idioma , alterne para ativar a deteção de idioma. Mostra-lhe o código ISO do idioma detetado.
Também pode ativar ou desativar a deteção de idioma no painel Definições do modelo.
Passo 4: Aplicar o modelo
Para guardar as alterações e regressar à home page do modelo, no painel Extratores , selecione Guardar e sair.
Se estiver pronto para aplicar o modelo a uma biblioteca, na área do documento, selecione Seguinte. No painel Adicionar à biblioteca , selecione a biblioteca à qual pretende adicionar o modelo e, em seguida, selecione Adicionar.