Obtenha insights de reconhecimento óptico de caracteres (OCR)

Artigo
10/09/2024

OCR (reconhecimento óptico de caracteres)

O OCR extrai texto de imagens como imagens, placas de rua e produtos em arquivos de mídia para criar insights.

O OCR extrai insights de texto impresso e manuscrito em mais de 50 idiomas, inclusive de uma imagem com texto em vários idiomas. Para obter mais informações, consulte Idiomas com suporte para OCR.

Para obter mais informações sobre OCR, consulte Tecnologia OCR.

Casos de uso de OCR

Pesquisar profundamente imagens de mídia em busca de imagens com placas de sinalização, nomes de ruas ou placas de carros, por exemplo, na aplicação da lei.
Extrair texto de imagens em arquivos de mídia e traduzi-lo para vários idiomas em rótulos para acessibilidade, por exemplo, em mídia ou entretenimento.
Detectar nomes de marcas em imagens e marcá-los para fins de tradução, por exemplo, em publicidade e branding.
Extrair texto em imagens que é automaticamente marcado e categorizado para acessibilidade e uso futuro, por exemplo, para gerar conteúdo em uma agência de notícias.
Extrair texto em avisos em instruções on-line e, em seguida, traduzir o texto para cumprir os padrões locais, por exemplo, instruções de e-learning para o uso de equipamentos.

Exibir o JSON do insight com o portal da Web

Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.

Selecione a guia Biblioteca.
Selecione a mídia com a qual deseja trabalhar.
Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
Procure o par de chaves descrito na resposta de exemplo.

Usar a API

Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
Procure os pares de chaves descritos na resposta de exemplo.

Exemplo de resposta

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Importante

É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:

Notas de OCR

O Video Indexer tem um limite de OCR de 50.000 palavras por vídeo indexado. Quando o limite é atingido, nenhum resultado adicional de OCR é gerado.
Considere cuidadosamente a precisão dos resultados, para promover detecções mais precisas, verifique a qualidade da imagem, imagens de baixa qualidade podem afetar os insights detectados.
Considere cuidadosamente ao usar para aplicação da lei. O OCR pode interpretar mal ou não detectar partes do texto. Para garantir determinações de VI justas e de alta qualidade, combine a automação baseada em OCR com a supervisão humana.
Ao extrair texto manuscrito, evite usar os resultados de OCR de assinaturas difíceis de ler para humanos e máquinas. A melhor maneira de usar o OCR é usá-lo para detectar a presença de uma assinatura para análise posterior.
Não use o OCR para decisões que possam ter sérios impactos adversos para indivíduos ou grupos. Os modelos de aprendizado de máquina que extraem texto podem resultar em saída de texto não detectada ou incorreta. Decisões baseadas em resultados incorretos podem ter sérios impactos adversos que devem ser evitados. Você deve sempre incluir a revisão humana de decisões que têm o potencial de causar sérios impactos sobre os indivíduos.

Componentes de OCR

Durante o procedimento de OCR, as imagens de texto em um arquivo de mídia são processadas da seguinte maneira:

Componente	Definição
Arquivo de origem	O usuário carrega o arquivo de origem para indexação.
Modelo de Leitura	As imagens são detectadas no arquivo de mídia e no texto e, em seguida, extraídas e analisadas pelos serviços de IA do Azure.
Obter modelo de resultados de leitura	A saída do texto extraído é exibida em um arquivo JSON.
Valor de confiança	O nível de confiança estimado de cada palavra é calculado como um intervalo de 0 a 1. A pontuação de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Veja todas as amostras para VI

Compartilhar via