Criar e treinar um modelo de classificação personalizado

Artigo
10/16/2024

Este conteúdo aplica-se a: v4.0 (pré-visualização) | Versões anteriores: v3.1 (GA) v3.0 (GA)

Importante

O modelo de classificação personalizado está atualmente em visualização pública. Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.

Os modelos de classificação personalizados podem classificar cada página em um arquivo de entrada para identificar um ou mais documentos dentro. Os modelos de classificador também podem identificar vários documentos ou várias instâncias de um único documento no arquivo de entrada. Os modelos personalizados do Document Intelligence exigem apenas cinco documentos de treinamento por classe de documento para começar. Para começar a treinar um modelo de classificação personalizado, você precisa de pelo menos cinco documentos para cada classe e duas classes de documentos.

Requisitos de entrada do modelo de classificação personalizado

Certifique-se de que seu conjunto de dados de treinamento siga os requisitos de entrada para o Document Intelligence.

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, , `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lida	✔	✔	✔
Esquema	✔	✔	✔ (2024-07-31-pré-visualização, 2024-02-29-pré-visualização, 2023-10-31-pré-visualização)
Documento Geral	✔	✔
Pré-criado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔ (2024-07-31-pré-visualização, 2024-02-29-pré-visualização)

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-07-31-preview e posterior, o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Dicas de dados de treinamento

Siga estas sugestões para otimizar ainda mais o conjunto de dados para a preparação:

Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagens. Os PDFs digitalizados são processados como imagens.
Se as imagens do formulário forem de menor qualidade, utilize um conjunto de dados maior (10 a 15 imagens, por exemplo).

Carregue seus dados de treinamento

Depois de montar o conjunto de formulários ou documentos para treinamento, você precisa carregá-lo em um contêiner de armazenamento de blob do Azure. Se você não souber como criar uma conta de armazenamento do Azure com um contêiner, siga o início rápido do Armazenamento do Azure para o portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço e atualizar posteriormente para um nível pago para produção. Se o conjunto de dados estiver organizado como pastas, preserve essa estrutura, pois o Studio pode usar os nomes das pastas para rótulos para simplificar o processo de rotulagem.

Criar um projeto de classificação no Document Intelligence Studio

O Document Intelligence Studio fornece e orquestra todas as chamadas de API necessárias para concluir seu conjunto de dados e treinar seu modelo.

Comece navegando até o Document Intelligence Studio. Na primeira vez que usar o Studio, você precisará inicializar sua assinatura, grupo de recursos e recurso. Em seguida, siga os pré-requisitos para projetos personalizados para configurar o Studio para acessar seu conjunto de dados de treinamento.
No Studio, selecione o bloco Modelo de classificação personalizado, na seção Modelos personalizados da página e selecione o botão Criar um projeto .
1. Na caixa de diálogo, forneça um nome para seu Create Project projeto, opcionalmente uma descrição, e selecione continuar.
2. Em seguida, escolha ou selecione criar um recurso de Document Intelligence antes de continuar.
Em seguida, selecione a conta de armazenamento usada para carregar seu conjunto de dados de treinamento de modelo personalizado. O caminho da pasta deve estar vazio se os documentos de treinamento estiverem na raiz do contêiner. Se os documentos estiverem em uma subpasta, insira o caminho relativo da raiz do contêiner no campo Caminho da pasta. Depois que sua conta de armazenamento estiver configurada, selecione continuar.

Importante

Você pode organizar o conjunto de dados de treinamento por pastas em que o nome da pasta é o rótulo ou a classe para documentos ou criar uma lista simples de documentos aos quais você pode atribuir um rótulo no Studio.
O treinamento de um classificador personalizado requer a saída do modelo de layout para cada documento em seu conjunto de dados. Execute o layout em todos os documentos antes do processo de treinamento do modelo.
Finalmente, revise as configurações do projeto e selecione Criar projeto para criar um novo projeto. Agora você deve estar na janela de rotulagem e ver os arquivos em seu conjunto de dados listados.

Rotule seus dados

Em seu projeto, você só precisa rotular cada documento com o rótulo de classe apropriado.

Captura de tela mostrando eleger o recurso Document Intelligence.

Você vê os arquivos que carregou para armazenamento na lista de arquivos, prontos para serem rotulados. Você tem algumas opções para rotular seu conjunto de dados.

Se os documentos estiverem organizados em pastas, o Studio solicitará que você use os nomes das pastas como rótulos. Esta etapa simplifica sua rotulagem em uma única seleção.
Para atribuir um rótulo a um documento, selecione em add label selection mark Para atribuir um rótulo.
Controlar a seleção para vários documentos de seleção para atribuir uma etiqueta

Agora você deve ter todos os documentos em seu conjunto de dados rotulados. Se você examinar a conta de armazenamento, encontrará .ocr.json arquivos que correspondem a cada documento em seu conjunto de dados de treinamento e um novo arquivo class-name.jsonl para cada classe rotulada. Este conjunto de dados de treinamento é enviado para treinar o modelo.

Preparar o modelo

Com seu conjunto de dados rotulado, você está pronto para treinar seu modelo. Selecione o botão de trem no canto superior direito.

Na caixa de diálogo do modelo de trem, forneça um ID de classificador exclusivo e, opcionalmente, uma descrição. O ID do classificador aceita um tipo de dados de cadeia de caracteres.
Selecione Treinar para iniciar o processo de treinamento.
Os modelos de classificadores treinam em poucos minutos.
Navegue até ao menu Modelos para ver o estado da operação do comboio.

Testar o modelo

Quando o treinamento do modelo estiver concluído, você poderá testá-lo selecionando o modelo na página de listagem de modelos.

Selecione o modelo e selecione no botão Testar .
Adicione um novo arquivo procurando um arquivo ou soltando um arquivo no seletor de documentos.
Com um arquivo selecionado, escolha o botão Analisar para testar o modelo.
Os resultados do modelo são exibidos com a lista de documentos identificados, uma pontuação de confiança para cada documento identificado e o intervalo de páginas para cada um dos documentos identificados.
Valide o seu modelo avaliando os resultados de cada documento identificado.

Treinamento de um classificador personalizado usando o SDK ou a API

O Studio orquestra as chamadas de API para que você treine um classificador personalizado. O conjunto de dados de treinamento do classificador requer a saída da API de layout que corresponde à versão da API para seu modelo de treinamento. O uso de resultados de layout de uma versão mais antiga da API pode resultar em um modelo com menor precisão.

O Studio gera os resultados de layout para seu conjunto de dados de treinamento se o conjunto de dados não contiver resultados de layout. Ao usar a API ou SDK para treinar um classificador, você precisa adicionar os resultados do layout às pastas que contêm os documentos individuais. Os resultados do layout devem estar no formato da resposta da API ao chamar o layout diretamente. O modelo de objeto do SDK é diferente. Certifique-se de que são os resultados da layout results API e não o SDK response.

Resolver problemas

O modelo de classificação requer resultados do modelo de layout para cada documento de treinamento. Se você não fornecer os resultados do layout, o Studio tentará executar o modelo de layout para cada documento antes de treinar o classificador. Este processo é acelerado e pode resultar numa resposta 429.

No Studio, antes de treinar com o modelo de classificação, execute o modelo de layout em cada documento e carregue-o no mesmo local do documento original. Depois que os resultados do layout forem adicionados, você poderá treinar o modelo do classificador com seus documentos.

Próximos passos

Saiba mais sobre os tipos de modelo personalizados

Saiba mais sobre precisão e confiança com modelos personalizados

Partilhar via