Compartir a través de


Obtención de información sobre el reconocimiento óptico de caracteres (OCR)

Reconocimiento óptico de caracteres (OCR)

OCR extrae texto de imágenes como imágenes, señales de calle y productos en archivos multimedia para crear conclusiones.

OCR extrae información de texto impreso y manuscrito en más de 50 idiomas, incluida una imagen con texto en varios idiomas. Para obtener más información, consulte Lenguajes compatibles con OCR.

Para obtener más información sobre OCR, consulte Tecnología OCR.

Casos de uso del reconocimiento óptico de caracteres

  • Búsqueda en profundidad de imágenes multimedia con carteles, nombres de calle o placas de licencia de automóviles, por ejemplo, en el cumplimiento de la ley.
  • Extraer texto de imágenes en archivos multimedia y traducirlo a varios idiomas en etiquetas para accesibilidad, por ejemplo en medios o entretenimiento.
  • Detectar nombres de marca en imágenes y etiquetarlos con fines de traducción, por ejemplo, en publicidad y personalización de marca.
  • Extraer texto en imágenes que, a continuación, se etiquetan y clasifican automáticamente para accesibilidad y uso futuro, por ejemplo, para generar contenido en una agencia de noticias.
  • Extraer texto en advertencias en instrucciones en línea y, a continuación, traducir el texto para cumplir con los estándares locales, por ejemplo, instrucciones de aprendizaje electrónico para el uso de equipos.

Visualización del JSON de información con el portal web

Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.

  1. Seleccione la pestaña Biblioteca .
  2. Seleccione los medios con los que desea trabajar.
  3. Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
  4. Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

  1. Use la solicitud Obtener índice de vídeo. Se recomienda pasar &includeSummarizedInsights=false.
  2. Busque los pares de claves descritos en la respuesta de ejemplo.

Respuesta de ejemplo

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Importante

Es importante leer la información general de la nota de transparencia para todas las características vi. Cada información también tiene notas de transparencia propias:

Notas de OCR

  • Video Indexer tiene un límite de OCR de 50 000 palabras por vídeo indexado. Una vez alcanzado el límite, no se generan resultados de OCR adicionales.
  • Considere cuidadosamente la precisión de los resultados, para promover detecciones más precisas, comprobar la calidad de la imagen, las imágenes de baja calidad podrían afectar a la información detectada.
  • Tenga cuidado de tener en cuenta al usar para el cumplimiento de la ley. OCR puede leer o no detectar partes del texto. Para garantizar determinaciones vi justas y de alta calidad, combine la automatización basada en OCR con la supervisión humana.
  • Al extraer texto manuscrito, evite usar los resultados de OCR de las firmas que son difíciles de leer para los seres humanos y las máquinas. Una mejor manera de usar OCR es usarla para detectar la presencia de una firma para un análisis posterior.
  • No use OCR para las decisiones que podrían tener graves impactos adversos en individuos o grupos. Los modelos de Machine Learning que extraen texto pueden dar lugar a una salida de texto no detectada o incorrecta. Las decisiones basadas en resultados incorrectos podrían tener graves efectos adversos que se deben evitar. Siempre debe incluir la revisión humana de las decisiones que tienen el potencial de impactos graves en las personas.

Componentes de OCR

Durante el procedimiento OCR, las imágenes de texto de un archivo multimedia se procesan de la siguiente manera:

Componente Definición
Archivo de origen El usuario carga el archivo de origen para la indexación.
Modelo de lectura Las imágenes se detectan en el archivo multimedia y el texto y, a continuación, se extraen y analizan mediante los servicios de Azure AI.
Obtención del modelo de resultados de lectura La salida del texto extraído se muestra en un archivo JSON.
Valor de confianza El nivel de confianza estimado de cada palabra se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Código de ejemplo

Ver todos los ejemplos de VI