O que há de novo na IA do Azure para Informação de Documentos
Esse conteúdo se aplica a: v4.0 (versão prévia) v3.1 (GA) v3.0 (GA) v2.1 (GA)
O serviço Informação de Documentos é atualizado continuamente. Adicione esta página aos favoritos para manter-se atualizado com as notas de versão, os aprimoramentos de recursos e a documentação mais recente.
Importante
As versões prévias da API são desativadas quando a API GA é lançada. A versão da API 2023-02-28-preview está sendo desativada. Se ainda estiver usando a versão prévia da API ou as versões do SDK associadas, atualize seu código para usar a versão 2023-07-31 (GA).
Agosto de 2024
A API REST 2024-07-31-preview da Informação de Documentos já está disponível. A API versão prévia apresenta recursos novos e atualizados:
Atualmente, a versão de visualização pública 2024-07-31-preview está disponível apenas nas regiões do Azure a seguir. O novo modelo de extração de campos de documentos no Estúdio de IA só está disponível na região Centro-Norte dos EUA:
Leste dos EUA
Oeste dos EUA 2
Oeste da Europa
Centro-Norte dos EUA
🆕 Modelo de extração de campo de documento (generativo personalizado)
- Use IA Generativa para extrair campos de documentos e formulários. A Informação de Documentos agora oferece um novo modelo de extração de campos de documentos que utiliza modelos de linguagem grande (LLMs) para extrair campos de documentos não estruturados ou formulários estruturados com uma ampla variedade de modelos visuais. Com valores fundamentados e pontuações de confiança, a nova extração baseada em IA generativa se encaixa em seus processos existentes.
🆕 Composição de modelos com classificadores personalizados
- A Informação de Documentos adiciona suporte para compor o modelo com um modelo de classificação personalizado explícito. Saiba mais sobre os benefícios de usar a nova funcionalidade de composição.
Modelo de classificação personalizada
- O modelo de classificação personalizado também dá suporte à atualização do modelo in-loco.
- O modelo de classificação personalizado adiciona suporte à operação de cópia de modelo para habilitar o backup e a recuperação de desastre.
- O modelo de classificação personalizado dá suporte à especificação explícita de páginas a serem classificadas de um documento de entrada.
🆕 Modelo de documentos de hipoteca
- Extraia informações da Avaliação (Formulário 1004).
- Extraia informações da Validação de Emprego (Formulário 1005).
-
- Extraia o destinatário, o valor, a data e outras informações relevantes das verificações.
-
- Novo predefinido para processar contracheques para extrair salários, horas, deduções, salário líquido e muito mais.
-
- Novo predefinido para extrair dados da conta, incluindo saldos iniciais e finais, detalhes da transação de extratos bancários.
-
- Novo modelo fiscal dos EUA unificado que pode extrair de formulários como W-2, 1098, 1099 e 1040.
🆕 PDF Pesquisável. O modelo de leitura predefinido agora dá suporte para saída PDF para fazer download de PDFs com texto inserido dos resultados da extração, permitindo que o PDF seja utilizado em cenários como a cópia de pesquisa de conteúdo.
O modelo de layout dá suporte à detecção de figura aprimorada em que as imagens de documentos podem ser baixadas como um arquivo de imagem a ser usado para maior compreensão da imagem. O modelo de layout também apresenta melhorias no modelo de OCR para texto digitalizado, visando melhorias para caracteres únicos, texto em caixa e documentos com texto denso.
-
- A Informação de Documentos agora dá suporte à operação de análise em lote para analisar um conjunto de documentos, simplificando a experiência do desenvolvedor e aumentando a eficiência.
Funcionalidades de complemento
- A qualidade de IA de campos de consulta é aprimorada com o modelo mais recente.
Maio de 2024
O Document Intelligence Studio adiciona suporte para autenticação do Microsoft Entra (anteriormente Azure Active Directory). Para mais informações, consulte visão geral do Estúdio de Informação de Documentos.
Fevereiro de 2024
A API REST 2024-07-31-preview da Informação de Documentos já está disponível. A API versão prévia apresenta recursos novos e atualizados:
Atualmente, a versão de visualização pública 2024-07-31-preview está disponível apenas nas seguintes regiões do Azure:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
O Modelo de layout agora dá suporte a detecção de figura e análise hierárquica de estrutura de documentos (seções e subseções). A qualidade da IA da ordem de leitura e da detecção de funções lógicas também é aprimorada.
Modelos de extração personalizados
- Os modelos de extração personalizados agora oferecem suporte a pontuações de confiança em nível de célula, linha e tabela. Saiba mais sobre a confiança de tabela, linha e célula.
- Os modelos de extração personalizados têm melhorias na qualidade da IA para a extração de campos.
- O exemplo de extração de modelo personalizado agora dá suporte à extração de campos sobrepostos. Saiba mais sobre os campos sobrepostos e como usá-los.
Modelo de classificação personalizada
- O modelo de classificação personalizado agora oferece suporte ao treinamento incremental para cenários em que você precisa atualizar o modelo do classificador com amostras ou classes adicionadas. Saiba mais sobre backups incrementais.
- O modelo de classificação personalizado adiciona suporte para tipos de documentos do Office (.docx, .pptx e .xls). Saiba mais sobre o suporte do tipo de documento expandido.
-
- Suporte para novos locais:
Localidade Código Árabe ( ar
)Búlgaro ( bg
)Grego ( el
)Hebraico ( he
)Macedônio ( mk
)Russo ( ru
)Sérvio cirílico ( sr-cyrl
)Ucraniano ( uk
)Tailandês ( th
)Turco ( tr
)Vietnamita ( vi
)- Suporte para novos códigos de moeda:
Moeda Localidade Código BAM
Marca conversível bósnia ( ba
)BGN
Lev búlgaro ( bg
)ILS
Novo shekel israelense ( il
)MKD
Dinar macedônio ( mk
)RUB
Rublo russo ( ru
)THB
Thai Baht ( th
)TRY
Lira Turca ( tr
)UAH
Hryvnia ucraniana ( ua
)VND
Dong vietnamita ( vn
)- Itens fiscais apoiam expansão para Alemanha (
de
), Espanha (es
), Portugal (pt
), Canadá inglêsen-CA
.
-
- Suporte de campo expandido para IDs da União Europeia e carteira de motorista.
-
- Extraia informações do Aplicativo de Empréstimo Residencial Uniforme (Formulário 1003).
- Extraia informações do Resumo de Subscrição Uniforme e Transmissão ou Formulário 1008.
- Extraia informações da divulgação do fechamento da hipoteca.
🆕 Modelo de cartão de crédito/débito
- Extraia informações dos cartões bancários.
-
- Nova predefinição para extrair informações das certidões de casamento.
Dezembro de 2023
As bibliotecas de clientes da Informação de Documentos destinados à API REST 2023-10-31-preview já estão disponíveis para uso.
novembrod e 2023
A API REST do serviço 2023-10-31-preview da Informação de Documentos já está disponível. A API versão prévia apresenta recursos novos e atualizados:
Atualmente, a versão prévia pública 2023-10-31-preview só está disponível nas seguintes regiões do Azure:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
-
- Expansão do idioma para manuscrito: Russo (
ru
), Árabe (ar
), Tailandês (th
). - Conformidade de EO (Ordem Executiva) Cibernética.
- Expansão do idioma para manuscrito: Russo (
-
- Suporte a arquivos HTML e do Office.
- Suporte à saída do Markdown.
- Melhorias de extração de tabela, ordem de leitura e detecção de título de seção.
- Com o Informação de Documentos 2023-10-31-preview, o modelo geral de documentos (documento predefinido) foi preterido. Daqui para frente, para extrair pares chave-valor de documentos, use o modelo
prebuilt-layout
com o parâmetro de cadeia de caracteres de consulta opcionalfeatures=keyValuePairs
habilitado.
-
- Agora extrai a moeda para todos os campos relacionados ao preço.
Modelo de Cartão de Seguro Saúde
- Novo campo de suporte para informações do Medicare e do Medicaid.
Modelos de Documentos de Impostos dos EUA
- Novo modelo fiscal 1099. Dá suporte ao formulário base 1099 e às seguintes variações: A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB.
-
- Suporte para o campo
KVK
. - Suporte para o campo
BPAY
. - Diversos refinamentos de campo.
- Suporte para o campo
-
- Suporte para documentos de vários idiomas.
- Novas opções de divisão da página: divisão automática, sempre dividido por página, sem divisão.
Funcionalidades de complemento
- Os campos de consulta estão disponíveis na versão
2023-10-31-preview
. - As funcionalidades de suplemento estão disponíveis em todos os modelos, exceto o modelo Leitura.
- Os campos de consulta estão disponíveis na versão
Observação
Com a versão de disponibilidade geral (GA) da API 31-08-2022, as APIs de pré-visualização associadas estão sendo descontinuadas. Se você estiver usando as versões da API 30-09-2021-versão prévia, 30-01-2022-versão prévia ou 30-06-2022-versão prévia, atualize seus aplicativos para direcionar a versão da API 31-08-2022. Há algumas pequenas alterações envolvidas. Para obter mais informações, consulte o guia de migração.
Julho de 2023
Observação
O Reconhecimento de Formulários passou a se chamar IA do Azure para Informação de Documentos!
- Os serviços de IA do Azure, documento, abrangem tudo o que antes era conhecido como Serviços Cognitivos e Serviços de IA Aplicada do Azure.
- Não houve alterações nos preços.
- Os nomes Serviços Cognitivos e IA Aplicada do Azure continuam a ser usados nas APIs de cobrança, análises de custo, listas de preços e preço do Azure.
- Não houve alterações interruptivas nas interfaces de programação de aplicativo (APIs) ou bibliotecas de clientes.
- Algumas plataformas ainda estão aguardando a atualização de renomeação. Todas as menções ao Reconhecimento de Formulários ou à Informação de Documentos na nossa documentação se referem ao mesmo serviço do Azure.
Informação de Documentos v3.1 (GA)
A API da versão 3.1 da Informação de Documentos agora está em disponibilidade geral (GA)! A versão da API corresponde a 2023-07-31
.
A API v3.1 apresenta recursos novos e atualizados:
- As APIs da Informação de Documentos agora são mais modulares e com suporte para recursos opcionais. Agora você pode personalizar a saída para incluir especificamente os recursos necessários. Saiba mais sobre os parâmetros opcionais.
- API de classificação de documentos para dividir um único arquivo em documentos individuais. Saiba mais sobre classificação de documentos.
- Modelo de contrato predefinido.
- Modelo de formulário fiscal 1098 predefinido dos EUA.
- Suporte para tipos de arquivos do Office com a API de Leitura.
- Reconhecimento de código de barras em documentos.
- Recurso complementar de reconhecimento de fórmula.
- Recurso complementar de reconhecimento de fonte.
- Suporte para documentos de alta resolução.
- Os modelos neurais personalizados agora exigem uma única amostra rotulada para treinar.
- Expansão de linguagem de modelos neurais personalizados. Treine um modelo neural para documentos em 30 idiomas. Veja o suporte a idiomas para obter a lista completa de idiomas com suporte.
- 🆕 Modelo de cartão de seguro de saúde predefinido.
- Expansão de localidade do modelo de fatura predefinido.
- Linguagem de modelo de recibo predefinida e expansão de localidade com mais de 100 idiomas com suporte.
- O modelo de ID predefinido agora dá suporte a IDs europeias.
Atualizações da UX do Document Intelligence Studio
✔️ Analisar Opções
A Informação de Documentos agora é compatível com recursos de análise mais sofisticados e o Estúdio permite um ponto de entrada (botão Analisar opções) para configurar os recursos de complemento com facilidade.
Dependendo do cenário de extração de documentos, configure o intervalo de análises, o intervalo de páginas de documentos, a detecção opcional e os recursos de detecção premium.
Observação
A extração de fontes não é visualizada no Estúdio da Informação de Documentos. No entanto, é possível marcar a seção de estilos da saída JSON para obter os resultados de detecção de fonte.
✔️ Rotulagem automática de documentos com modelos predefinidos ou um de seus próprios modelos
Na página de rotulagem do modelo de extração personalizado, agora você pode rotular automaticamente seus documentos usando um dos modelos predefinidos do Serviço de Informação de Documentos ou modelos treinados anteriormente.
Para alguns documentos, podem existir rótulos duplicados após a execução da rotulagem automática. Modifique os rótulos para que não haja rótulos duplicados na página de rotulagem posteriormente.
✔️ Tabelas de rotulagem automática
Na página de rotulagem de modelo de extração personalizada, agora você pode rotular automaticamente as tabelas no documento sem precisar rotular as tabelas manualmente.
✔️ Adicionar arquivos de teste diretamente ao conjunto de dados de treinamento
Uma vez treinado um modelo de extração personalizado, use a página de teste para melhorar a qualidade do modelo, carregando documentos de teste para o conjunto de dados de treinamento, se necessário.
Se uma pontuação de confiança baixa for retornada para alguns rótulos, certifique-se de que seus rótulos estejam corretos. Caso contrário, adicione-os ao conjunto de dados de treinamento e re-rótulo para melhorar a qualidade do modelo.
✔️ Faça uso das opções e filtros da lista de documentos em projetos personalizados
Use a página de rotulagem do modelo de extração personalizada. Agora você pode navegar pelos documentos de treinamento com facilidade usando a pesquisa, o filtro e a classificação por recurso.
Utilize o modo de exibição de grade para visualizar documentos ou use a exibição de lista para percorrer os documentos com mais facilidade.
✔️ Compartilhamento de projetos
- Compartilhe projetos de extração personalizados com facilidade. Para obter mais informações, consulte Compartilhamento de projetos com modelos personalizados.
Maio de 2023
Apresentação da documentação atualizada para o Build 2023
🆕 Visão geral do Informação de Documentos navegação aprimorada, pontos de acesso estruturados e imagens enriquecidas.
🆕 Escolher um modelo da Informação de Documentos fornece orientação para escolher a melhor solução da Informação de Documentos para seus projetos e fluxos de trabalho.
Abril de 2022
Anunciando o lançamento de pré-visualização pública mais recente da biblioteca de cliente da Informação de Documentos
A versão 28-02-2023-versão prévia da API REST da Informação de Documentos dá suporte às bibliotecas de clientes de versão de visualização pública. Esta versão inclui os seguintes novos recursos e capacidades disponíveis para bibliotecas de clientes de .NET/C# (4.1.0-beta-1), Java (4.1.0-beta-1), JavaScript (4.1.0-beta-1) e Python (3.3.0b.1):
Para mais informações, consulte SDK de Informação de Documentos (visualização pública) e notas sobre a versão de março de 2023
Março de 2023
Importante
As funcionalidades de 2023-02-28-preview
só estão disponíveis nas seguintes regiões:
- Europa Ocidental
- Oeste dos EUA 2
- Leste dos EUA
- O modelo de classificação personalizado é um novo recurso da Informação de Documentos começando com a API
2023-02-28-preview
. - Recursos de campos de consulta foram adicionados ao modelo de documento geral; use modelos de OpenAI do Azure para extrair campos específicos de documentos. Experimente o recurso Documentos gerais com campos de consulta usando o Document Intelligence Studio. No momento, os campos de consulta estão ativos apenas para recursos na região
East US
. - Funcionalidades de complemento:
- A extração de fonte agora é reconhecida com a API
2023-02-28-preview
. - A extração de fórmulas agora é reconhecida com a API
2023-02-28-preview
. - A extração de alta resolução agora é reconhecida com a API
2023-02-28-preview
.
- A extração de fonte agora é reconhecida com a API
- Atualizações personalizadas do modelo de extração:
- O modelo neural personalizado agora dá suporte a novos idiomas para treinamento e análise. Treine modelos neurais em holandês, francês, alemão, italiano e espanhol.
- O modelo personalizado agora tem uma funcionalidade de detecção de assinatura aprimorada.
- Atualizações do Document Intelligence Studio:
- Além de dar suporte a todos os novos recursos, como classificação e campos de consulta, o Estúdio agora permite o compartilhamento de projetos de modelo personalizado.
- Acréscimo de novos modelo em versão prévia restrita: Cartões de vacinação, Contratos, Formulário US Tax 1098, Formulário US Tax 1098-E e Formulário US Tax 1098-T. Para solicitar acesso a modelos de visualização fechados, preencha e envie o formulário de solicitação de versão prévia privada da Informação de Documentos.
- Atualizações do modelo de recibo:
- O modelo de recibo adiciona suporte para recibos térmicos.
- O modelo de recibo agora adiciona suporte a 18 idiomas e três idiomas regionais (inglês, francês e português).
- O modelo de recibo agora dá suporte à extração de
TaxDetails
.
- O modelo de layout agora melhora o reconhecimento de tabelas.
- O modelo de leitura agora adiciona melhorias no reconhecimento de caracteres de um único dígito.
Fevereiro de 2023
Alguns contêineres da Informação de Documentos para v3.0 já estão disponíveis para uso!
No momento, os contêineres Leitura v3.0 e Layout v3.0 estão disponíveis.
Para mais informações, consulte Instalar e executar contêineres de Informação de Documentos.
Janeiro de 2023
Modelo de recibo predefinido – Idiomas com suporte adicionados. O modelo de recibo agora dá suporte a estes novos idiomas e localidades
- Japonês – Japão (ja-JP)
- Francês – Canadá (fr-CA)
- Neerlandês – Países Baixos (nl-NL)
- Inglês – Emirados Árabes Unidos (en-AE)
- Português – Brasil (pt-BR)
Modelo de fatura predefinido – Idiomas com suporte adicionados. O modelo de fatura agora dá suporte a estes novos idiomas e localidades
- Inglês: Estados Unidos (en-US), Austrália (en-AU), Canadá (en-CA), Reino Unido (en-GB), Índia (en-IN)
- Espanhol – Espanha (es-ES)
- Francês – França (fr-FR)
- Italiano – Itália (it-IT)
- Português – Portugal (pt-PT)
- Neerlandês – Países Baixos (nl-NL)
Modelo de fatura predefinido – Campos reconhecidos adicionados. O modelo de fatura agora reconhece estes novos campos
- Código de moeda
- Opções de pagamento
- Desconto total
- Itens tributários (somente para en-IN)
Modelo de ID predefinido – Tipos de documento com suporte adicionados. O modelo de ID agora dá suporte a estes tipos de documento adicionados
- ID militar dos EUA
Dica
Todas as atualizações de janeiro de 2023 estão disponíveis com a API REST versão 2022-08-31 (Disponibilidade geral).
Modelo de recebimento predefinido – suporte para idiomas adicionais:
O modelo de recibo prefinido adiciona suporte para os seguintes idiomas:
- Inglês – Emirados Árabes Unidos (en-AE)
- Neerlandês – Países Baixos (nl-NL)
- Francês – Canadá (fr-CA)
- Alemão (de-DE)
- Italiano (it-IT)
- Japonês – Japão (ja-JP)
- Português – Brasil (pt-BR)
Modelo de fatura predefinido—suporte para idiomas adicionais e extrações de campo
O modelo de fatura predefinida adiciona suporte para os seguintes idiomas:
- Inglês: Austrália (en-AU), Canadá (en-CA), Reino Unido (en-UK), Índia (en-IN)
- Português – Brasil (pt-BR)
O modelo de fatura prefinida agora adiciona suporte para as seguintes extrações de campo:
- Código de moeda
- Opções de pagamento
- Desconto total
- Itens tributários (somente para en-IN)
Modelo de documento de ID predefinido—suporte a tipos de documento adicionais
O modelo de documento de ID prefinida agora adiciona suporte para os seguintes tipos de documentos:
- Expansão da carteira de motorista com suporte para Índia, Canadá, Reino Unido e Austrália
- Cartões de identidade e de documentos militares dos EUA
- Documentos e carteiras de identidade da Índia (PAN e Aadhaar)
- Documentos e carteiras de identidade da Austrália (carteira com foto, ID com senha)
- Documentos e carteiras de identidade do Canadá (carteira de identidade, cartão Maple)
- Documentos e carteiras de identidade do Reino Unido (carteira de identidade nacional ou regional)
Dezembro de 2022
Atualizações do Document Intelligence Studio
A versão de dezembro do Document Intelligence Studio inclui as atualizações mais recentes do Document Intelligence Studio. Há melhorias significativas na experiência do usuário, principalmente com suporte à rotulagem de modelo personalizado.
Intervalo de páginas. Agora, o estúdio dá suporte à análise de páginas especificadas de um documento.
Rotulagem de modelo personalizado:
Executar a API de layout automaticamente. Você pode optar por executar a API de Layout para todos os documentos automaticamente no armazenamento de blobs durante o processo de instalação do modelo personalizado.
Pesquisa. Agora, o estúdio inclui a funcionalidade de pesquisa para localizar palavras em um documento. Essa melhoria permite uma navegação mais fácil durante a rotulagem.
Navegação. Você pode selecionar rótulos para direcionar palavras rotuladas em um documento.
Rotulagem de tabela automática. Depois de selecionar o ícone de tabela em um documento, você poderá optar por rotular automaticamente a tabela extraída no modo de exibição de rotulagem.
Subtipos de rótulo e subtipos de segundo nível Agora, o estúdio dá suporte a subtipos para colunas de tabela, linhas de tabela e subtipos de segundo nível para tipos como datas e números.
Agora há suporte para a criação de modelos neurais personalizados na região US Gov - Virgínia.
As versões prévias da API
2022-01-30-preview
e2021-09-30-preview
serão desativadas em 31 de janeiro de 2023. Atualize para a versão2022-08-31
da API para evitar interrupções de serviço.
Novembro de 2022
- Anunciando a última versão estável das bibliotecas da IA do Azure para Informação de Documentos
- Esta versão inclui alterações e atualizações importantes para bibliotecas de clientes do .NET, Java, JavaScript e Python. Para mais informações, consulte DevBlog do SDK do Azure.
- Os aprimoramentos mais significativos são a introdução de dois novos clientes, o
DocumentAnalysisClient
e oDocumentModelAdministrationClient
.
Outubro de 2022
Conteúdo versionado da Informação de Documentos
A documentação do Informação de Documentos foi atualizada para apresentar uma experiência com controle de versão. Agora, você pode optar por visualizar o conteúdo direcionado à experiência
v3.0 GA
ou à experiênciav2.1 GA
. A experiência v3.0 é a padrão.
Código de amostra do Document Intelligence Studio
- O código de amostra para a experiência de rotulagem do Document Intelligence Studio agora está disponível no GitHub. Os clientes podem desenvolver e integrar a Informação de Documentos em sua própria UX ou construir sua própria nova UX usando o código de exemplo do Document Intelligence Studio.
Expansão de idioma
- Com a versão prévia mais recente, os modelos Leitura (OCR), Layout e Personalizado da Informação de Documentos dão suporte a 134 novos idiomas. Essas adições incluem grego, letão, sérvio, tailandês, ucraniano e vietnamita, juntamente com várias línguas latinas e que utilizam o alfabeto cirílico. A Informação de Documentos agora tem um total de 299 idiomas com suporte na versão em disponibilidade geral mais recente e nas novas versões prévias. Consulte as páginas de idiomas com suporte para ver todos os idiomas com suporte.
- Use o parâmetro da API REST
api-version=2022-06-30-preview
ao usar a API ou o SDK correspondente para oferecer suporte aos novos idiomas em seus aplicativos.
Novo modelo de contrato predefinido
- Um novo modelo de contrato predefinido que extrai informações de contratos como partes, título, ID do contrato, data de execução e muito mais. Atualmente, o modelo de contratos está em versão prévia, solicite acesso aqui.
Expansão de região para treinamento de modelos neurais personalizados
- Agora há suporte para o treinamento de modelos neurais personalizados em regiões adicionadas.
- Leste dos EUA
- Leste dos EUA 2
- Governo dos EUA do Arizona
- Agora há suporte para o treinamento de modelos neurais personalizados em regiões adicionadas.
Setembro de 2022
Observação
A partir da versão 4.0.0, um novo conjunto de clientes foi introduzido para aproveitar os recursos mais recentes do serviço Informação de Documentos.
A versão de GA 4.0.0 de SDK inclui as seguintes atualizações:
- Versão 4.0.0 GA (2022-09-08)
- Dá suporte a clientes da API REST v3.0 e v2.0
Agora há suporte para a expansão de região do treinamento de modelos neurais personalizados em seis regiões novas
- Leste da Austrália
- Centro dos EUA
- Leste da Ásia
- França Central
- Sul do Reino Unido
- Oeste dos EUA 2
Para obter uma lista completa de regiões em que há suporte para treinamento, confira Modelos neurais personalizados.
Lançamento da versão
4.0.0 GA
do SDK da Informação de Documentos:- Bibliotecas de clientes da Informação de Documentos versão 4.0.0 (.NET/C#, Java, JavaScript) e a versão 3.2.0 (Python) estão geralmente disponíveis e prontos para uso em aplicativos de produção.
- Para obter mais informações sobre bibliotecas de clientes da Informação de Documentos, confira a visão geral do SDK.
- Atualize seus aplicativos usando o guia de migração da linguagem de programação.
Agosto de 2022
A versão de visualização beta do SDK da Informação de Documentos de agosto de 2022 inclui as seguintes atualizações:
Versão 4.0.0-beta.5 (09-08-2022)
Informação de Documentos v3.0 em disponibilidade geral
- A API REST da Informação de Documentos v3.0 agora está com disponibilidade geral e pronta para uso em aplicativos de produção! Atualize os aplicativos com a API REST versão 31/08/2022.
Atualizações do Document Intelligence Studio
- Próximas etapas. Em cada página de modelo, o Studio agora tem uma próxima seção de etapas. Os usuários podem referenciar rapidamente o código de exemplo, as diretrizes de solução de problemas e as informações de preços.
- Modelos personalizados. O Estúdio agora inclui a capacidade de reordenar rótulos em projetos de modelo personalizados para melhorar a eficiência da rotulagem.
- Copiar modelos Modelos personalizados podem ser copiados nos serviços da Informação de Documentos a partir do Estúdio. A operação permite a promoção de um modelo treinado para outros ambientes e regiões.
- Excluir documentos. O Estúdio agora dá suporte à exclusão de documentos do conjunto de dados rotulado em projetos personalizados.
Atualizações de serviço da Informação de Documentos
- prebuilt-read. O modelo de Leitura OCR agora também está disponível na Informação de Documentos com parágrafos e detecção de idioma como os dois novos recursos. A Leitura da Informação de Documentos tem como alvo cenários avançados de documentos alinhados com os recursos mais amplos de inteligência de documentos na Informação de Documentos.
- prebuilt-layout. O modelo de Layout extrai parágrafos e se o texto extraído é um parágrafo, título, cabeçalho da seção, nota de rodapé, cabeçalho de página, rodapé de página ou número de página.
- prebuilt-invoice. Os campos TotalVAT e Line/VAT agora corrigem os campos TotalTax e Line/Tax existentes, respectivamente.
- prebuilt-idDocument. Suporte à extração de dados para ID de estado dos EUA, seguro social e green cards. Suporte para informações de visto de passaporte.
- prebuilt-receipt. Apoio de localidade expandido para francês (fr-FR), espanhol (es-ES), português (pt-PT), italiano (it-IT) e alemão (de-DE).
- prebuilt-businessCard. Suporte à análise de endereços para extrair subcampos de componentes do endereço, como endereço, cidade, estado, país/região e CEP.
Aprimoramentos de qualidade de IA
- prebuilt-read. Suporte aprimorado para caracteres únicos, datas manuscritas, valores, nomes, outros dados importantes comumente encontradas em recibos e faturas, bem como processamento aprimorado de documentos PDF digitais.
- prebuilt-layout. Suporte para melhor detecção de tabelas cortadas, tabelas sem bordas e reconhecimento aprimorado de células de longa abrangência.
- prebuilt-document. Melhor valor e detecção de caixa de seleção.
- custom-neural. Precisão aprimorada para detecção e extração de tabelas.
Junho de 2022
- A versão de visualização beta do SDK da Informação de Documentos de junho de 2022 inclui as seguintes atualizações:
Versão 4.0.0-beta.4 (2022-06-08)
A versão de junho do Document Intelligence Studio é a atualização mais recente do Document Intelligence Studio. Há melhorias consideráveis de experiência do usuário e acessibilidade abordadas nesta atualização:
- Exemplo de código para JavaScript e C#. A guia de código do Estúdio agora adiciona exemplos de código JavaScript e C#, além do Python existente.
- Interface do usuário de upload de documento. O Studio agora dá suporte ao upload de documentos com a opção "arrastar e soltar" na nova interface do usuário para upload.
- Novo recurso para projetos personalizados. Os projetos personalizados agora dão suporte à criação de contas de armazenamento e blobs ao serem configurados. Além disso, o projeto personalizado agora dá suporte ao carregamento de arquivos de treinamento diretamente no Studio e à cópia do modelo personalizado existente.
A versão da Informação de Documentos v3.0 30-06-2022-versão prévia apresenta atualizações abrangentes nas APIs de recursos:
- O layout estende a extração de estrutura. O layout agora inclui elementos de estrutura adicionados, como seções, cabeçalhos de seção e parágrafos. Essa atualização permite cenários de segmentação de documentos mais refinada. Para uma lista completa de elementos estruturais identificados, consulte estrutura aprimorada.
- Suporte a campos tabulares de modelo neural personalizado. Os modelos de documento personalizados agora dão suporte a campos tabulares. Por padrão, os campos tabulares também têm várias páginas. Para saber mais sobre campos tabulares em modelos neurais personalizados, consulte campos tabulares.
- Suporte a campos tabulares de modelo personalizado para tabelas entre páginas. Os modelos de formulário personalizados agora dão suporte a campos tabulares entre páginas. Para saber mais sobre campos tabulares em modelos de templates personalizados, consulte campos tabulares.
- A saída do modelo de fatura agora inclui pares chave-valor do documento geral. Quando as faturas contêm campos necessários além dos campos incluídos no modelo predefinido, o modelo de documento geral complementa a saída com pares chave-valor. Consulte pares de chave-valor.
- Expansão do idioma da fatura. O modelo de fatura inclui suporte a idioma expandido. Consulte idiomas com suporte.
- O cartão de visita predefinido agora inclui suporte ao idioma japonês. Consulte idiomas com suporte.
- Modelo de documento de ID predefinido. O modelo de documento de ID agora extrai DateOfIssue, Height, Weight, EyeColor, HairColor e DocumentDiscriminator das carteiras de motorista dos EUA. Consulte extração de campo.
- O modelo de leitura agora dá suporte a tipos comuns de documentos do Microsoft Office. Agora há suporte para tipos de documentos como Word (docx), Excel (xlsx) e PowerPoint (pptx) com a API de Leitura. Confira Extração de dados de leitura.
Fevereiro de 2022
Versão 4.0.0-beta.3 (2022-02-10)
A versão prévia da Informação de Documentos v3.0 apresenta vários novos recursos, capacidades e melhorias:
- O Modelo neural personalizado ou modelo de documento personalizado é um novo modelo personalizado para extração de texto e marcas de seleção de formulários estruturados, documentos semiestruturados e não estruturados.
- O modelo predefinido W-2 é um novo modelo predefinido para extração de campos de formulários W-2 em cenários de relatórios de impostos e verificação de renda.
- A API de Leitura extrai linhas de texto impressas, palavras, localizações de texto, idiomas detectados e texto manuscrito, se detectado.
- O modelo pré-treinado de documento geral já está atualizado para dar suporte a marcas de seleção, além de texto de API, tabelas, estrutura e pares chave-valor em formulários e documentos.
- API de Fatura O modelo predefinido de fatura expande o suporte para faturas em espanhol.
- O Document Intelligence Studio adiciona novas demonstrações para leitura, W2, amostras de recibos de hotel e suporte para treinamento de novos modelos neurais personalizados.
- Expansão de idiomas os modelos Leitura, Layout e Formulários Personalizados da Informação de Documentos ganharam suporte para 42 novos idiomas, incluindo árabe, hindi e outros idiomas, usando scripts de árabe e Devanagari para expandir a cobertura para 164 idiomas. O suporte à linguagem manuscrita foi expandido para japonês e coreano.
Introdução à nova API de visualização v3.0.
Extração de dados de modelo da Informação de Documentos:
Modelo Extração de texto Pares chave-valor Marcas de seleção Tabelas Assinaturas Ler ✓ Documentação Geral ✓ ✓ ✓ ✓ Layout ✓ ✓ ✓ Fatura ✓ ✓ ✓ ✓ Receipt ✓ ✓ ✓ Documento de identificação ✓ ✓ Cartão de visita ✓ ✓ Template personalizado ✓ ✓ ✓ ✓ ✓ Neural personalizado ✓ ✓ ✓ ✓ A versão prévia beta do SDK da Informação de Documentos inclui as seguintes atualizações:
Modos e modelos de documento personalizados:
- Modelo personalizado (formulário personalizado anteriormente).
- Neural personalizado.
- Modelo personalizado – modo de build.
Modelo predefinido W-2 (prebuilt-tax.us.w2).
Modelo predefinido de leitura (prebuilt-read).
Modelo predefinido de fatura (espanhol) (prebuilt-invoice).
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta Rotulagem de Amostra da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.