Introdução ao Azure AI Vision

3 minutos

A capacidade dos sistemas computacionais de processar texto escrito e impresso é uma área da IA onde a visão computacional se cruza com o processamento de linguagem natural. Os recursos de visão são necessários para "ler" o texto e, em seguida, os recursos de processamento de linguagem natural dão sentido a ele.

OCR é a base do processamento de texto em imagens e usa modelos de aprendizado de máquina que são treinados para reconhecer formas individuais como letras, números, pontuação ou outros elementos de texto. Grande parte do trabalho anterior na implementação deste tipo de funcionalidade foi realizado pelos serviços de correios para suportar a ordenação automática de correio com base nos códigos postais. Desde então, o estado da arte para a leitura de texto avançou, e temos modelos que detetam texto impresso ou manuscrito em uma imagem e o leem linha por linha e palavra por palavra.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Mecanismo OCR do Azure AI Vision

O serviço Azure AI Vision tem a capacidade de extrair texto legível por máquina de imagens. A API de leitura do Azure AI Vision é o mecanismo OCR que permite a extração de texto de imagens, PDFs e arquivos TIFF. O OCR para imagens é otimizado para imagens gerais não documentais, o que facilita a incorporação de OCR em seus cenários de experiência do usuário.

A API de leitura, também conhecida como mecanismo de leitura OCR, usa os modelos de reconhecimento mais recentes e é otimizada para imagens que têm uma quantidade significativa de texto ou têm ruído visual considerável. Ele pode determinar automaticamente o modelo de reconhecimento adequado a ser usado, levando em consideração o número de linhas de texto, imagens que incluem texto e manuscrito.

O mecanismo OCR recebe um arquivo de imagem e identifica caixas delimitadoras, ou coordenadas, onde os itens estão localizados dentro de uma imagem. No OCR, o modelo identifica caixas delimitadoras em torno de qualquer coisa que pareça ser texto na imagem.

Chamar a API de leitura retorna resultados organizados na seguinte hierarquia:

Páginas – uma para cada página de texto, incluindo informações sobre o tamanho e a orientação da página.
Linhas – as linhas de texto numa página.
Palavras - As palavras em uma linha de texto, incluindo as coordenadas da caixa delimitadora e o próprio texto.

Cada linha e palavra inclui coordenadas de caixa delimitadora a indicar a posição na página.

A screenshot showing bounding boxes around the page, line, and word of a letter.

Introdução ao Azure AI Vision

Mecanismo OCR do Azure AI Vision

Comentários