Modelos personalizados de Informação de Documentos
Esse conteúdo se aplica a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: moniker-end
Esse conteúdo se aplica a: v2.1 | Última versão: v4.0 (GA)
A Informação de Documentos usa tecnologia avançada de aprendizado de máquina para identificar documentos, detectar e extrair informações de formulários e documentos e retornar os dados extraídos em uma saída JSON estruturada. Com a Informação de Documentos, você pode usar os modelos de análise de documentos pré-compilados/pré- treinados, ou seus modelos personalizados independentes treinados.
Os modelos personalizados agora incluem modelos de classificação personalizados para cenários em que você precisa identificar o tipo de documento antes de invocar o modelo de extração. Os modelos de classificação estão disponíveis a partir da API 2023-07-31 (GA)
. Um modelo de classificação pode ser combinado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos para sua empresa. Os modelos de extração personalizados autônomos podem ser combinados para criar modelos compostos.
Tipos de modelo de documento personalizado
Modelos de documento personalizados podem ser de dois tipos, modelo personalizado ou formulário personalizado e modelos de documentos personalizados ou neurais personalizados. O processo de rotulagem e treinamento para os dois modelos é idêntico, mas os modelos diferem da seguinte maneira:
Modelos de extração personalizados
Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que deseja extrair e treine o modelo no conjunto de dados rotulado. É necessário somente cinco exemplos do mesmo tipo de formulário ou documento para começar.
Modelo neural personalizado
Importante
A API v4.0 2024-11-30 (GA)
do Document Intelligence dá suporte a campos sobrepostos de modelo neural personalizado, detecção de assinatura e confiança no nível de tabela, linha e célula.
O modelo neural personalizado (documento personalizado) usa modelos de aprendizado profundo e modelo base treinado em uma grande coleção de documentos. Esse modelo é ajustado ou adaptado aos seus dados quando você treina o modelo com um conjunto de dados rotulado. Os modelos neurais personalizados dão suporte à extração de campos de dados chave de documentos estruturados, semiestruturados e não estruturados. Quando você estiver escolhendo entre os dois tipos de modelo, comece com um modelo neural para determinar se ele atender às suas necessidades funcionais. Confira modelos neurais para saber mais sobre modelos de documento personalizados.
Modelo de template personalizado
O template personalizado ou modelo de formulário personalizado depende de um template visual consistente para extrair os dados rotulados. As variações na estrutura de seus documentos afetam a precisão do seu modelo. Formulários estruturados, como questionários ou aplicativos, são exemplos de templates visuais consistentes.
Seu conjunto de treinamento consiste de documentos estruturados em que a formatação e o layout são estáticos e constantes de uma instância de documento para a próxima. Os modelos personalizados dão suporte a pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelos de template e podem ser treinados em documentos em todos os idiomas compatíveis. Para obter mais informações, veja modelos de modelos personalizados.
Se o idioma dos seus documentos e os cenários de extração dão suporte a modelos neurais personalizados, recomendamos usar modelos neurais personalizados em vez de modelos predefinidos para obter maior precisão.
Dica
Para confirmar que seus documentos de treinamento apresentam um template visual consistente, remova todos os dados inseridos pelo usuário de cada formulário no conjunto. Se os formulários em branco forem idênticos na aparência, eles representarão um template visual consistente.
Para obter mais informações, veja Interpretar e melhorar a precisão e a confiança de modelos personalizados.
Requisitos de entrada
Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Formatos de arquivo com suporte:
Modelar PDF Image,: jpeg/jpg
,png
,bmp
,tiff
,heif
Microsoft Office:
Word (docx), Excel (xlsx), PowerPoint (pptx)Ler ✔ ✔ ✔ Layout ✔ ✔ ✔ Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ ✱ Atualmente, não há suporte para arquivos do Microsoft Office para outros modelos ou versões.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a cerca de
8
-texto de ponto a 150 pontos por polegada.Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento de modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo e 1G-MB para o modelo neural.
Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é
1GB
com no máximo 10.000 páginas.
Dados de treinamento ideais
Os dados de entrada de treinamento são a base de qualquer modelo de machine learning. Eles são determinantes para a qualidade, exatidão e desempenho do modelo. Portanto, é fundamental gerar os melhores dados de treinamento possíveis para o seu projeto de Informação de Documentos. Ao usar o modelo personalizado da Informação de Documentos, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos com eficiência:
Use PDFs em texto em vez de PDFs em imagem quando possível. Uma forma de identificar um PDF baseado em imagem é tentar selecionar um texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem e não em texto.
Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).
Use formulários que tenham todos os campos disponíveis preenchidos.
Use formulários com valores diferentes em cada campo.
Se as imagens forem de baixa qualidade, use um conjunto de dados maior (com mais de cinco documentos de treinamento).
Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.
Pense em segmentar o conjunto de seus conjuntos de dados em pastas, em que cada pasta corresponde a um modelo único. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade. A precisão do modelo pode diminuir quando você tem formatos diferentes analisados com um único modelo.
Considere segmentar seu conjunto de dados para treinar vários modelos caso seus formulários apresentem variações nos formatos e quebras de página. Formulários personalizados dependem de um modelo visual consistente.
Verifique se você tem um conjunto de dados equilibrado, considerando os formatos, os tipos de documentos e a estrutura.
Modo de criação
A função build custom model
agora inclui suporte para os modelos personalizados modelo e neural. As versões anteriores da API REST e das bibliotecas de cliente só dão suporte a um único modo de build que agora é conhecido como o modo de modelo.
Modelos de template aceitam apenas documentos que tenham a mesma estrutura de página básica – uma aparência visual uniforme – ou o mesmo posicionamento relativo de elementos dentro do documento.
Os modelos neurais dão suporte a documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas variam na aparência entre as empresas.
Esta tabela fornece links para as referências do SDK da linguagem de programação do modo de compilação e exemplos de código no GitHub:
Linguagem de programação | Referência do SDK | Exemplo de código |
---|---|---|
C# / .NET | DocumentBuildMode Struct | Sample_BuildCustomModelAsync.cs |
Java | DocumentBuildMode Class | BuildModel.java |
JavaScript | DocumentBuildMode type | buildModel.js |
Python | DocumentBuildMode Enum | sample_build_model.py |
Comparar recursos de modelo
A tabela a seguir compara o modelo personalizado e os recursos neurais personalizados:
Recurso | Modelo personalizado (formulário) | Neural personalizado (documento) |
---|---|---|
Estrutura do documento | Modelo, formulário e estruturado | Estruturado, semiestruturado e não estruturado |
Tempo de treinamento | De 1 a 5 minutos | De 20 minutos a 1 hora |
Extração de dados | Pares chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas | Pares chave-valor, marcas de seleção e tabelas |
Campos sobrepostos | Sem suporte | Com suporte |
Variações de documento | Requer um modelo por variação | Usa um único modelo para todas as variações |
Suporte ao idioma | Modelo personalizado de suporte a idiomas | Suporte a idiomas personalizado neural |
Modelo de classificação personalizada
A classificação de documentos é um novo cenário com suporte pela Informação de Documentos com a API 2023-07-31
(v3.1 de disponibilidade geral). A API do classificador de documentos dá suporte a cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos aos quais seu aplicativo dá suporte. O arquivo de entrada para o modelo de classificação pode conter vários documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, veja classificação personalizada.
Observação
O modelo de classificação de documentos v4.0 2024-11-30 (GA)
dá suporte aos tipos de documento do Office para classificação. Essa versão da API também apresenta o treinamento incremental para o modelo de classificação.
Ferramentas de modelo personalizado
Os modelos de Informação de Documentos v3.1 e posteriores dão suporte às seguintes ferramentas, aplicativos e bibliotecas, programas e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo personalizado | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python |
custom-model-id |
Ciclo de vida de um modelo personalizado
O ciclo de vida de um modelo personalizado é determinado pela versão da API usada para treiná-lo. Se a versão da API for uma versão de disponibilidade geral (GA), o modelo personalizado seguirá o mesmo ciclo de vida dessa versão. O modelo customizado não estará mais disponível para inferência quando a versão da API for descontinuada. Caso a versão da API seja uma versão prévia, o modelo personalizado acompanhará o ciclo de vida da versão prévia dessa API.
A Informação de Documentos v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Observação
Os tipos de modelo de personalização neural e modelo personalizado estão disponíveis com as APIs de Informação de Documentos versão v3.1 e v3.0.
Recurso | Recursos |
---|---|
Modelo personalizado | ● Ferramenta de rotulagem do recurso Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos |
Criar um modelo personalizado
Extraia dados de documentos específicos ou exclusivos usando modelos personalizados. Você precisa dos seguintes recursos:
Uma assinatura do Azure. É possível criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Ferramenta de rotulagem de exemplos
Dica
- Para obter uma experiência aprimorada e modelos de qualidade avançada, experimente o Estúdio de Informação de Documentos v3.0.
- O Studio v3.0 dá suporte a qualquer modelo treinado usando os dados rotulados da v2.1.
- Você pode consultar o guia de migração de API para obter informações detalhadas sobre como migrar da v2.1 para a v3.0.
- Consulte nossos ../inícios rápidos de API REST ou C#, Java, JavaScript ou SDK do Python para começar a usar a versão v3.0.
A ferramenta de Rotulagem de Amostra de Informação de Documentos é uma ferramenta de código aberto que permite testar os recursos mais recentes da Informação de Documentos e os recursos de Reconhecimento Óptico de Caracteres (OCR).
Acesse o início rápido da ferramenta Rotulagem de Exemplo para começar a criar e usar um modelo personalizado.
Estúdio de Informação de Documentos
Observação
O Estúdio de Informação de Documentos está disponível com as APIs v3.1 e v3.0.
Na página inicial do Estúdio de Informação de Documentos, selecione Modelos de extração personalizados.
Em Meus projetos, selecione Criar um projeto.
Preencha os campos de detalhes do projeto.
Configure o recurso de serviço adicionando sua conta de armazenamento e seu contêiner de blob para Conectar sua fonte de dados de treinamento.
Revise e crie seu projeto.
Adicione seus documentos de exemplo para rotular, compilar e testar seu modelo personalizado.
Para obter um passo a passo detalhado para criar seu primeiro modelo de extração personalizado, veja Como criar um modelo de extração personalizado.
Resumo da extração de modelo personalizado
Esta tabela compara as áreas de extração de dados com suporte:
Modelar | Campos de formulário | Marcas de seleção | Campos estruturados (tabelas) | Assinatura | Rotulagem de região | Campos sobrepostos |
---|---|---|---|---|---|---|
Template personalizado | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
Neural personalizado | ✔ | ✔ | ✔ | ✔ | * | ✔ |
Símbolos de tabela:
✔ — Com suporte
**n/a— atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos, os dados sintéticos são gerados no momento do treinamento. Com modelos neurais, o texto de saída reconhecido na região é selecionado.
Dica
Ao escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se ele atender às suas necessidades funcionais. Confira neural personalizada para saber mais sobre modelos neurais personalizados.
Opções de desenvolvimento de modelo personalizado
A tabela a seguir descreve os recursos disponíveis com as ferramentas e bibliotecas de cliente associadas. Como melhor prática, não deixe de usar as ferramentas compatíveis listadas aqui.
Tipo de documento | API REST | . | Modelos de rótulo e teste |
---|---|---|---|
Modelo personalizado v 4.0, v3.1 e v3.0 | Informação de Documentos 3.1 | SDK da Informação de Documentos | Estúdio da Informação de Documentos |
Neural personalizado v4.0, v3.1 e v3.0 | Informação de Documentos 3.1 | SDK da Informação de Documentos | Estúdio da Informação de Documentos |
Formulário personalizado v2.1 | API de disponibilidade geral da Informação de Documentos 2.1 | SDK da Informação de Documentos | Ferramenta de rotulagem de exemplo |
Observação
Modelos de template personalizados treinados com a API 3.0 terão algumas melhorias em relação à API 2.1 que derivam de melhorias no mecanismo de OCR. Os conjuntos de dados usados para treinar um modelo de template personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.
Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Os formatos de arquivo com suporte são JPEG/JPG, PNG, BMP, TIFF e PDF (texto inserido ou digitalizado). PDFs com texto inserido são melhores porque eliminam a possibilidade de erro na extração e na localização de caracteres.
Para arquivos PDF e TIFF, até 2.000 páginas podem ser processadas. Para assinantes de camada gratuita, somente as duas primeiras páginas são processadas.
O tamanho do arquivo deve ter menos de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões das imagens devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
As dimensões PDF têm até 17 x 17 polegadas, correspondentes ao tamanho de papel Legal ou A3 ou menor.
O tamanho total do conjunto de dados de treinamento é de 500 páginas ou menos.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
Dica
Dados de treinamento:
- Se possível, use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
- Forneça uma única instância do formulário por documento.
- Para formulários preenchidos, use exemplos com todos os campos preenchidos.
- Use os formulários com diferentes valores em cada campo.
- Se suas imagens de formulário forem de qualidade inferior, use um conjunto de dados maior. Por exemplo, use de 10 a 15 imagens.
Idiomas e localidades com suporte
Confira nosso página Suporte a Idiomas – modelos personalizados, para obter uma lista completa dos idiomas com suporte.
Próximas etapas
Tente processar seus próprios formulários e documentos com a ferramenta Rotulagem de Amostra da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.