Modelo de recibo da Informação de Documentos
Esse conteúdo se aplica a: v4.0 (GA) | Versões anteriores: v3.1 (GA) v3.0 (GA) v2.1 (GA)
::: moniker-end
Esse conteúdo se aplica a: v2.1 | Última versão: v4.0 (GA)
O modelo de recibo da Informação de Documentos combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes dos recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes, como o nome do comerciante, o número de telefone do comerciante, a data da transação, o imposto e o total da transação e retorna os dados JSON estruturados. O modelo de recibo v4.0 (GA) também oferece suporte a outros campos, incluindo ReceiptType
, TaxDetails.NetAmount
, TaxDetails.Description
, TaxDetails.Rate
e CountryRegion
.
Tipos de recibo com suporte:
- Refeição
- Suprimentos
- Hotel
- Combustível e Energia
- Transporte
- Comunicação
- Assinaturas
- Entretenimento
- Treinamento
- Serviços de Saúde
Extração de dados de recibo
A digitalização de recibos abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação de impostos etc. O uso da Informação de Documentos com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recibo. O processamento da Informação de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.
Recibo de exemplo processado com o Estúdio da Informação de Documentos:
Recibo de exemplo processado com a Ferramenta de rotulagem de exemplo da Informação de Documentos:
Opções de desenvolvimento
O Document Intelligence v4.0: 2024-11-30 (GA) oferece suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos |
---|---|
Modelo de recibo | ● Ferramenta de rotulagem da Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos |
Requisitos de entrada
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é2
GB com um máximo de 10.000 páginas.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- Permissão de página com suporte para PDF e TIFF, a Informação de Documentos s pode processar até 2.000 mil páginas para assinantes da camada Standard ou apenas as duas primeiras páginas para assinantes da camada gratuita.
- Tamanho do arquivo com suporte: inferior a 50 MB; mínimo de pixels 50 x 50 px; máximo de pixels: 10.000 x 10.000 px.
Extração de dados do modelo de recibo
Veja como a Informação de Documentos extrai dados dos recibos, incluindo a hora e a data das transações, as informações do comerciante e os valores totais. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Observação
O Estúdio da Informação de Documentos está disponível com APIs v3.1 e v3.0 e versões posteriores.
Na home page do Estúdio da Informação de Documentos, selecione Recibos.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Ferramenta de Rotulagem de Amostra da Informação de Documentos
Navegue até a Ferramenta de Exemplo da Informação de Documentos.
Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.
Selecione o Tipo de Formulário que deseja analisar no menu suspenso.
Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.
No campo Ponto de extremidade do serviço Informação de Documentos, cole o ponto de extremidade obtido com a assinatura da Informação de Documentos.
No campo chave, cole a chave obtida do recurso Informação de Documentos.
Selecione Executar análise. A ferramenta de rotulagem de exemplo da Informação de Documentos chamará a API predefinida Analisar e analisará o documento.
Veja os resultados: confira os pares chave-valor extraídos, os itens de linha, o texto realçado extraído e as tabelas detectadas.
Observação
A ferramenta de Rotulagem de Exemplo não é compatível com o formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.
Idiomas e localidades com suporte
Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos.
Extração de campo
Para campos de extração de documentos suportados, consulte a página esquema do modelo de recibo em nosso repositório de amostra do GitHub
Nome | Tipo | Descrição | Saída padronizada |
---|---|---|---|
ReceiptType | String | Tipo de recibo de vendas | Itemizado |
MerchantName | String | Nome do comerciante que está emitindo o recibo | |
MerchantPhoneNumber | phoneNumber | Número de telefone listado do comerciante | +1 xxx xxx xxxx |
MerchantAddress | String | Endereço listado do comerciante | |
Data da transação | Data | Data em que o recibo foi emitido | aaaa-mm-dd |
TransactionTime | Hora | Hora em que o recibo foi emitido | hh-mm-ss (24 horas) |
Total | Número (USD) | Total de transações completas do recibo | Float com duas casas decimais |
Subtotal | Número (USD) | Subtotal do recibo, geralmente antes da aplicação de impostos | Float com duas casas decimais |
Imposto | Número (USD) | Imposto total no recibo (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30-preview. | Float com duas casas decimais |
Dica | Número (USD) | Gorjeta incluída pelo comprador | Float com duas casas decimais |
Itens | Matriz de objetos | Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído | |
Nome | String | Descrição do item. Renomeado para "Description" na versão 2022-06-30. | |
Quantidade | Número | Quantidade de cada item | Float com duas casas decimais |
Preço | Número | Preço individual de cada unidade de item | Float com duas casas decimais |
TotalPrice | Número | Preço total do item de linha | Float com duas casas decimais |
Guia de migração e API REST v3.1
- Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.1 prévia em seus aplicativos e fluxos de trabalho.
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta Rotulagem de Amostra da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.