Compreender os modelos pré-construídos

Concluído

Os modelos pré-criados no Azure AI Document Intelligence permitem extrair dados de formulários e documentos comuns sem treinar seus próprios modelos.

Em sua empresa de pesquisa, os formulários de votação são exclusivos para cada projeto de pesquisa, mas você também usa faturas e recibos para registrar transações financeiras e tem muitos documentos não estruturados. Você quer saber quanto trabalho é necessário para extrair nomes, endereços, valores e outras informações desses documentos.

Aqui, você aprenderá como modelos pré-construídos podem ajudá-lo a analisar tipos de documentos comuns.

O que são modelos pré-construídos?

A abordagem geral usada em soluções de IA é fornecer uma grande quantidade de dados de amostra e, em seguida, treinar um modelo otimizado experimentando diferentes recursos de dados, parâmetros e tratamentos estatísticos. A combinação que melhor prevê os valores que lhe interessam constitui o modelo treinado e você pode usar isso para prever valores a partir de novos dados.

Muitas das formas que as empresas usam no dia a dia são de alguns tipos comuns. Por exemplo, a maioria das empresas emite ou recebe faturas e recibos. Qualquer empresa que tenha funcionários nos Estados Unidos deve usar o formulário de declaração de imposto W-2. Além disso, muitas vezes você tem documentos mais gerais dos quais você pode querer extrair dados. Para estes casos, a Microsoft ajudou fornecendo modelos pré-construídos. Os modelos pré-construídos já são treinados em grandes números de seu tipo de formulário de destino.

Se você quiser usar o Document Intelligence para extrair dados de um desses formulários ou documentos comuns, você pode optar por usar um modelo pré-construído e não precisa treinar o seu próprio. Como a Microsoft treinou esses modelos em um grande corpus de exemplos, você pode esperar que eles forneçam resultados precisos e confiáveis ao lidar com os formulários pretendidos.

Vários dos modelos pré-construídos são treinados em tipos de formulário específicos:

  • Modelo de fatura. Extrai campos comuns e seus valores de faturas.
  • Modelo de recibo. Extrai campos comuns e seus valores de recibos.
  • Modelo tributário dos EUA. Modelo tributário unificado dos EUA que pode extrair de formulários como W-2, 1098, 1099 e 1040.
  • Modelo de documento de identificação. Extrai campos comuns e seus valores de carteiras de motorista dos EUA, IDs e carteiras de motorista da União Europeia e passaportes internacionais.
  • Modelo de cartão de visita. Extrai campos comuns e seus valores de cartões de visita.
  • Modelo de cartão de seguro de saúde. Extrai campos comuns e seus valores de cartões de seguro de saúde.
  • Certidão de casamento. Extrai informações de certidões de casamento.
  • Modelo de cartão de crédito/débito. Extrai informações comuns de cartões bancários.
  • Documentos de hipoteca. Extrai informações da divulgação de fechamento de hipoteca, Pedido de Empréstimo Residencial Uniforme (Formulário 1003), Avaliação (Formulário 1004), Validação de Emprego (Formulário 1005) e Subscrição Uniforme e Resumo de Transmissão (Formulário 1008).
  • Modelo de extrato bancário. Extrai informações da conta, incluindo saldos iniciais e finais, detalhes da transação de extratos bancários.
  • Modelo Pay Stub. Extrai salários, horas, deduções, remuneração líquida e outros campos de holerite comuns.
  • Verifique o modelo. Extrai o beneficiário, o montante, a data e outras informações relevantes dos cheques.

Os outros modelos são projetados para extrair valores de documentos com estruturas menos específicas:

  • Leia o modelo. Extrai texto e idiomas de documentos.
  • Modelo geral do documento. Extraia texto, chaves, valores, entidades e marcas de seleção de documentos.
  • Modelo de layout. Extrai texto e estrutura informações de documentos.

Características dos modelos pré-construídos

Os modelos pré-construídos são projetados para extrair diferentes tipos de dados dos documentos e formulários enviados pelos usuários. Para selecionar o modelo certo para suas necessidades, você deve entender estes recursos:

  • Extração de texto. Todos os modelos pré-construídos extraem linhas de texto e palavras de texto escrito à mão e impresso.
  • Pares chave-valor. Espadas de texto dentro de um documento que identificam um rótulo ou chave e sua resposta ou valor são extraídos por muitos modelos como pares chave-valores. Por exemplo, uma chave típica pode ser Peso e seu valor pode ser 31 kg.
  • entidades. O texto que inclui estruturas de dados comuns e mais complexas pode ser extraído como entidades. Os tipos de entidade incluem pessoas, locais e datas.
  • Marcas de seleção. Espados de texto que indicam uma escolha podem ser extraídos por alguns modelos como marcas de seleção. Essas marcas incluem botões de opção e caixas de seleção.
  • Tabelas. Muitos modelos podem extrair tabelas em formulários digitalizados, incluindo os dados contidos nas células, os números de colunas e linhas e cabeçalhos de colunas e linhas. Há suporte para tabelas com células mescladas.
  • Campos. Os modelos treinados para um tipo de formulário específico identificam os valores de um conjunto fixo de campos. Por exemplo, o modelo de fatura inclui os campos CustomerName e InvoiceTotal .

Considere também que os modelos pré-construídos são projetados e treinados em tipos genéricos de documentos e formulários. Se você tiver um tipo de formulário específico do setor ou exclusivo que usa com frequência, poderá obter resultados mais confiáveis e previsíveis usando um modelo personalizado. No entanto, os modelos personalizados levam tempo para serem desenvolvidos, porque você deve investir tempo e recursos para treiná-los em formulários de exemplo antes de poder usá-los. Quanto maior o número de formulários de exemplo que você fornecer para treinamento, melhor será o modelo no conteúdo do formulário de previsão com precisão.

Requisitos de entrada

Os modelos pré-construídos são muito flexíveis, mas você pode ajudá-los a retornar resultados precisos e úteis enviando uma foto clara ou uma digitalização de alta qualidade para cada documento.

Deve também cumprir estes requisitos quando envia um formulário para análise:

  • O ficheiro tem de estar em formato JPEG, PNG, BMP, TIFF ou PDF. Além disso, o modelo de leitura pode aceitar arquivos do Microsoft Office.
  • O arquivo deve ser menor que 500 MB para a camada padrão e 4 MB para a camada gratuita.
  • As imagens devem ter dimensões entre 50 x 50 pixels e 10.000 x 10.000 pixels.
  • Os documentos PDF devem ter dimensões inferiores a 17 x 17 polegadas ou tamanho de papel A3.
  • Os documentos PDF não devem ser protegidos com uma palavra-passe.

Nota

Se puder, envie arquivos PDF incorporados em texto, pois eles eliminam erros no reconhecimento de caracteres.

Os ficheiros PDF e TIFF podem ter qualquer número de páginas, mas, no nível padrão, apenas as primeiras 2000 páginas são analisadas. No nível gratuito, apenas as duas primeiras páginas são analisadas.

Experimente modelos pré-criados com o Azure AI Document Intelligence Studio

O Azure AI Document Intelligence foi projetado como um serviço Web que você pode chamar usando código em seus aplicativos personalizados. No entanto, muitas vezes é útil explorar os modelos e como eles se comportam visualmente com seus formulários. Você pode executar esses experimentos usando o Azure AI Document Intelligence Studio e usar a experiência para ajudar a projetar e escrever seu código.

Você pode escolher qualquer um dos modelos pré-criados no Azure AI Document Intelligence Studio. A Microsoft fornece alguns documentos de exemplo para uso com cada modelo ou você pode adicionar seus próprios documentos e analisá-los.

Captura de ecrã a mostrar como utilizar o Azure AI Document Intelligence Studio para explorar o modelo pré-criado do cartão de visita.

Chamando modelos pré-criados usando APIs

Como o Azure AI Document Intelligence implementa serviços Web RESTful, você pode usar chamadas de serviço Web de qualquer idioma que ofereça suporte a eles. No entanto, quando você usa as APIs de inteligência documental do Azure AI da Microsoft, o gerenciamento de segurança e sessão é simplificado e você precisa escrever menos código.

As APIs estão disponíveis para:

  • C# e outras linguagens .NET.
  • Java.
  • Python.
  • JavaScript.

Sempre que quiser chamar o Azure AI Document Intelligence, você deve começar conectando-se e autenticando-se com o serviço em sua assinatura do Azure. Para fazer essa conexão, você precisa:

  • O ponto de extremidade do serviço. Esse valor é a URL onde o serviço é publicado.
  • A chave de API. Esse valor é uma chave exclusiva que concede acesso.

Você obtém esses dois valores do portal do Azure.

Como o serviço pode levar alguns segundos para responder, é melhor usar chamadas assíncronas para enviar um formulário e, em seguida, obter os resultados da análise:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document(
        "prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
    ))
result: AnalyzeResult = poller.result()

Os detalhes que você pode extrair desses resultados dependem do modelo usado.

Mais informações