Noções básicas sobre os modelos predefinidos

Concluído

Os modelos predefinidos na IA do Azure para Informação de Documentos permitem extrair dados de formulários e documentos comuns sem treinar seus modelos.

Em sua empresa de pesquisa, os formulários de pesquisa são exclusivos para cada projeto de pesquisa, mas você também usa faturas e recibos para registrar transações financeiras e tem muitos documentos não estruturados. Você quer saber quanto trabalho é necessário para extrair nomes, endereços, valores e outras informações desses documentos.

Aqui, você aprenderá como os modelos predefinidos podem ajudar a analisar tipos de documentos comuns.

O que são modelos predefinidos?

A abordagem geral usada nas soluções de IA é fornecer uma grande quantidade de dados de amostra e, em seguida, treinar um modelo otimizado, experimentando diferentes recursos de dados, parâmetros e tratamentos estatísticos. A combinação que melhor prevê os valores que interessam a você constitui o modelo treinado, e você pode usá-lo para prever valores com base em novos dados.

Muitos dos formulários que as empresas usam do dia a dia são de alguns tipos comuns. Por exemplo, a maioria das empresas emite ou recebe faturas e recibos. Qualquer empresa que tenha funcionários no Estados Unidos precisa usar o formulário de declaração de imposto W-2. Além disso, muitas vezes você tem documentos mais gerais dos quais talvez queira extrair dados. Para esses casos, a Microsoft ajudou fornecendo modelos predefinidos. Os modelos predefinidos já são treinados em um grande número do respectivo tipo de formulário de destino.

Se você quiser usar a Informação de Documentos para extrair dados de um desses formulários ou documentos comuns, poderá optar por usar um modelo predefinido e não precisará treinar o seu próprio modelo. Como a Microsoft treinou esses modelos usando um grande corpus de exemplos, você pode esperar que eles forneçam resultados precisos e confiáveis ao lidar com os formulários pretendidos.

Vários modelos predefinidos foram treinados em tipos de formulário específicos:

  • Modelo de fatura. Extrai campos comuns e seus valores de faturas.
  • Modelo de recibo. Extrai campos comuns e seus valores de recibos.
  • Modelo de imposto dos Estados Unidos. Modelo de imposto unificado dos Estados Unidos que pode extrair de formulários como W-2, 1098, 1099 e 1040.
  • Modelo de documento de identificação. Extrai campos comuns e seus valores de carteiras de motoristas dos Estados Unidos, identidades e carteiras de motorista da União Europeia e de passaportes internacionais.
  • Modelo de cartão de visita. Extrai campos comuns e seus valores de cartões de visita.
  • Modelo de cartão de seguro de saúde. Extrai campos comuns e seus valores de cartões de seguro de saúde.
  • Certidão de casamento. Extrai informações de certidões de casamento.
  • Modelo de cartão de crédito/débito. Extrai informações comuns de cartões bancários.
  • Documentos hipotecários. Extrai informações da divulgação de fechamento de hipotecas, Aplicativo de Empréstimo Residencial Uniforme (Formulário 1003), Avaliação (Formulário 1004), Validação do Emprego (Formulário 1005) e Resumo de Subscrição Uniforme e Transmissão (Formulário 1008).
  • Modelo de extrato bancário. Extrai informações da conta, incluindo saldos iniciais e finais, detalhes da transação de extratos bancários.
  • Modelo de folha de pagamento. Extrai salários, horas, deduções, pagamento líquido e outros campos de pagamento comuns.
  • Modelo de cheque. Extrai o destinatário, o valor, a data e outras informações relevantes dos cheques.

Os outros modelos foram projetados para extrair valores de documentos com estruturas menos específicas:

  • Modelo de leitura. Extrai texto e idiomas de documentos.
  • Modelo de documento geral. Extrai texto, chaves, valores, entidades e marcas de seleção de documentos.
  • Modelo de layout. Extrai informações de texto e estrutura dos documentos.

Recursos dos modelos predefinidos

Os modelos predefinidos foram projetados para extrair diferentes tipos de dados dos documentos e formulários enviados pelos usuários. Para selecionar o modelo certo para seus requisitos, você precisa entender estes recursos:

  • Extração de texto. Todos os modelos predefinidos extraem linhas de texto e palavras de texto escrito à mão e impresso.
  • Pares de chave-valor. Trechos de texto em um documento que identificam um rótulo ou chave e sua resposta ou valor são extraídos por muitos modelos como pares chave-valor. Por exemplo, uma chave típica pode ser Peso e seu valor pode ser 31 kg.
  • Entidades. O texto que inclui estruturas de dados comuns e mais complexas pode ser extraído como entidades. Os tipos de entidade incluem pessoas, locais e datas.
  • Marcas de seleção. Trechos de texto que indicam uma escolha podem ser extraídos por alguns modelos como marcas de seleção. Essas marcas incluem botões de opção e caixas de seleção.
  • Tabelas. Muitos modelos podem extrair tabelas em formulários digitalizados, incluindo os dados contidos nas células, os números de colunas e linhas e os títulos de coluna e linha. Há suporte para tabelas com células mescladas.
  • Campos. Modelos treinados para um tipo de formulário específico identificam os valores de um conjunto fixo de campos. Por exemplo, o modelo de Fatura inclui os campos CustomerName e InvoiceTotal.

Considere também que os modelos predefinidos são projetados e treinados com tipos genéricos de documentos e formulários. Se você tiver um tipo de formulário exclusivo ou específico do setor que é usado com frequência, poderá obter resultados mais confiáveis e previsíveis usando um modelo personalizado. No entanto, modelos personalizados levam tempo para serem desenvolvidos porque você precisa investir tempo e recursos para treiná-los com formulários de exemplo antes de poder usá-los. Quanto maior o número de formulários de exemplo fornecidos para treinamento, melhor será o modelo em termos de prever o conteúdo do formulário com precisão.

Requisitos de entrada

Os modelos predefinidos são muito flexíveis, mas você pode ajudá-los a retornar resultados precisos e úteis enviando uma foto clara ou uma digitalização de alta qualidade de cada documento.

Você também precisa cumprir estes requisitos ao enviar um formulário para análise:

  • O arquivo precisa estar no formato JPEG, PNG, BMP, TIFF ou PDF. Além disso, o modelo Leitura pode aceitar arquivos do Microsoft Office.
  • O arquivo precisa ser menor que 500 MB para a camada standard e 4 MB para a camada gratuita.
  • As dimensões das imagens precisam estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
  • Os documentos PDF precisam ter dimensões inferiores a 17 x 17 polegadas ou tamanho de papel A3.
  • Documentos PDF não podem ser protegidos por senha.

Observação

Se puder, envie arquivos PDF com texto inserido, pois eles eliminam erros de reconhecimento de caracteres.

Arquivos PDF e TIFF podem ter qualquer número de páginas, mas, na camada standard, somente as primeiras 2000 páginas são analisadas. Na camada gratuita, somente as duas primeiras páginas são analisadas.

Experimentar modelos predefinidos com o Estúdio da IA do Azure para Informação de Documentos

A IA do Azure para Informação de Documentos foi projetada como um serviço Web que você pode chamar usando código em aplicativos personalizados. No entanto, geralmente é útil explorar visualmente os modelos e como eles se comportam com seus formulários. Você pode executar esses experimentos usando o Estúdio da IA do Azure para Informação de Documentos e usar a experiência para ajudar a projetar e escrever seu código.

Você pode escolher qualquer um dos modelos predefinidos no Estúdio da IA do Azure para Informação de Documentos. A Microsoft fornece alguns documentos de amostra para uso com cada modelo, ou você pode adicionar seus documentos e analisá-los.

Captura de tela mostrando como usar o Estúdio da IA do Azure para Informação de Documentos para explorar o modelo pré-construído de cartão de visita.

Chamando modelos predefinidos usando APIs

Como a IA do Azure para Informação de Documentos implementa serviços Web RESTful, você pode usar chamadas de serviço Web de qualquer idioma com suporte para eles. No entanto, quando você usa as APIs da IA do Azure para Informação de Documentos da Microsoft, o gerenciamento de segurança e de sessão é simplificado e você precisa escrever menos código.

As APIs estão disponíveis para:

  • C# e outras linguagens .NET.
  • Java.
  • Python.
  • {2>JavaScript<2}.

Sempre que quiser chamar a IA do Azure para Informação de Documentos, comece conectando-se e autenticando-se com o serviço em sua assinatura do Azure. Para fazer essa conexão, você precisa de:

  • O ponto de extremidade de serviço. Esse valor é a URL em que o serviço foi publicado.
  • A chave de API. Esse valor é uma chave exclusiva que concede acesso.

Obtenha ambos os valores no portal do Azure.

Como o serviço pode levar alguns segundos para responder, é melhor usar chamadas assíncronas para enviar um formulário e, em seguida, obter os resultados da análise:

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);

AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document(
        "prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
    ))
result: AnalyzeResult = poller.result()

Os detalhes que você pode extrair desses resultados dependem do modelo usado.

Saiba mais