Partilhar via


Obtenha informações sobre reconhecimento ótico de caracteres (OCR)

Reconhecimento ótico de carateres (OCR)

OCR extrai texto de imagens como imagens, sinais de rua e produtos em arquivos de mídia para criar insights.

O OCR extrai informações de texto impresso e manuscrito em mais de 50 idiomas, incluindo uma imagem com texto em vários idiomas. Para obter mais informações, consulte Idiomas suportados por OCR.

Para obter mais informações sobre OCR, consulte Tecnologia OCR.

Casos de uso de OCR

  • Pesquisa profunda de imagens de mídia com placas, nomes de ruas ou placas de carros, por exemplo, na aplicação da lei.
  • Extrair texto de imagens em ficheiros multimédia e, em seguida, traduzi-lo para vários idiomas em etiquetas para acessibilidade, por exemplo, em multimédia ou entretenimento.
  • Detetar nomes de marcas em imagens e marcá-las para fins de tradução, por exemplo, em publicidade e branding.
  • Extrair texto em imagens que é automaticamente marcado e categorizado para acessibilidade e uso futuro, por exemplo, para gerar conteúdo em uma agência de notícias.
  • Extrair texto em avisos em instruções on-line e, em seguida, traduzir o texto para cumprir as normas locais, por exemplo, instruções de e-learning para o uso de equipamentos.

Veja o insight JSON com o portal da Web

Depois de carregar e indexar um vídeo, os insights ficam disponíveis no formato JSON para download usando o portal da Web.

  1. Selecione a guia Biblioteca .
  2. Selecione a mídia com a qual deseja trabalhar.
  3. Selecione Download e o Insights (JSON). O arquivo JSON é aberto em uma nova guia do navegador.
  4. Procure o par de chaves descrito na resposta de exemplo.

Utilizar a API

  1. Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
  2. Procure os pares de chaves descritos na resposta de exemplo.

Resposta de exemplo

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Importante

É importante ler a visão geral da nota de transparência para todos os recursos VI. Cada insight também tem notas de transparência próprias:

Notas OCR

  • O Video Indexer tem um limite de OCR de 50.000 palavras por vídeo indexado. Uma vez que o limite é atingido, nenhum resultado adicional de OCR é gerado.
  • Considere cuidadosamente a precisão dos resultados, para promover deteções mais precisas, verifique a qualidade da imagem, imagens de baixa qualidade podem afetar os insights detetados.
  • Considere cuidadosamente ao usar para aplicação da lei. OCR pode ler incorretamente ou não detetar partes do texto. Para garantir determinações VI justas e de alta qualidade, combine a automação baseada em OCR com a supervisão humana.
  • Ao extrair texto manuscrito, evite usar os resultados de OCR de assinaturas que são difíceis de ler para humanos e máquinas. Uma melhor maneira de usar OCR é usá-lo para detetar a presença de uma assinatura para análise posterior.
  • Não use OCR para decisões que possam ter sérios impactos adversos para indivíduos ou grupos. Os modelos de aprendizado de máquina que extraem texto podem resultar em saída de texto não detetada ou incorreta. As decisões baseadas em resultados incorretos podem ter impactos adversos graves que devem ser evitados. Você deve sempre incluir a revisão humana de decisões que têm o potencial de impactos graves sobre os indivíduos.

Componentes OCR

Durante o procedimento OCR, as imagens de texto em um arquivo de mídia são processadas da seguinte maneira:

Componente Definição
Ficheiro de origem O usuário carrega o arquivo de origem para indexação.
Ler modelo As imagens são detetadas no arquivo de mídia e no texto e, em seguida, extraídas e analisadas pelos serviços de IA do Azure.
Obter modelo de resultados de leitura A saída do texto extraído é exibida em um arquivo JSON.
Valor da confiança O nível de confiança estimado de cada palavra é calculado como um intervalo de 0 a 1. O índice de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Ver todos os exemplos de VI