Descripción de la visión informática

Completado

La visión informática es un área de la inteligencia artificial que trata el procesamiento visual. Ahora se explorarán algunas de las posibilidades que ofrece.

La aplicación Seeing AI es un buen ejemplo del potencial de la visión informática. Diseñada para usuarios invidentes y con visión reducida, la aplicación Seeing AI aprovecha la eficacia de la inteligencia artificial para abrir el mundo visual y describir personas, texto y objetos cercanos.

Vea el vídeo siguiente para obtener más información sobre Seeing AI.

Para obtener más información, visite la página web de Seeing AI.

Modelos y funciones de Computer Vision

La mayoría de las soluciones de visión artificial se basan en modelos de Machine Learning que se pueden aplicar a la entrada visual de cámaras, videos o imágenes. En la tabla siguiente se describen aplicaciones comunes de visión informática.

Tarea Descripción
Clasificación de imágenes An image of a taxi with the label
La clasificación de imágenes implica entrenar un modelo de Machine Learning para clasificar imágenes en función de sus contenidos. Por ejemplo, en una solución de control del tráfico, podría usar un modelo de clasificación de imágenes para clasificar las imágenes según el tipo de vehículo que contienen, como taxis, autobuses, ciclistas, etc.
Detección de objetos An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
Los modelos de Machine Learning de detección de objetos están entrenados para clasificar objetos individuales dentro de una imagen, y para identificar su ubicación con un rectángulo delimitador. Por ejemplo, una solución de control del tráfico podría usar la detección de objetos para identificar la ubicación de diferentes clases de vehículos.
Segmentación semántica An image of a street with the pixels belonging to buses, cars, and cyclists identified.
La segmentación semántica es una técnica avanzada de aprendizaje automático en la que los píxeles individuales de la imagen se clasifican según el objeto al que pertenecen. Por ejemplo, una solución de control del tráfico podría superponer imágenes de tráfico con capas de "máscara" para resaltar diferentes vehículos mediante colores concretos.
Análisis de imágenes An image of a person with a dog on a street and the caption
Puede crear soluciones que combinen modelos de Machine Learning con técnicas avanzadas de análisis de imágenes para extraer información de las imágenes, incluidas "etiquetas" que podrían ayudar a catalogar la imagen o incluso subtítulos descriptivos que resuman la escena que se muestra en la imagen.
Detección, análisis y reconocimiento de caras An image of multiple people on a city street with their faces highlighted.
La detección de caras es una forma especializada de detección de objetos que busca caras humanas en una imagen. Esto se puede combinar con técnicas de clasificación y análisis de geometría facial para reconocer a los individuos en función de sus rasgos faciales.
Reconocimiento óptico de caracteres (OCR) An image of a building with the sign
El reconocimiento óptico de caracteres es una técnica que se usa para detectar y leer texto en imágenes. Puede usar OCR para leer texto en fotografías (por ejemplo, señales de tráfico o escaparates de tiendas), o bien para extraer información de documentos escaneados, como cartas, facturas o formularios.

Servicios de visión artificial en Microsoft Azure

Puede usar Visión de Azure AI de Microsoft para desarrollar soluciones de visión por ordenador. Las características de servicio están disponibles para su uso y pruebas en Azure Vision Studio y otros lenguajes de programación. Algunas características de Visión de Azure AI son:

  • Análisis de imagen: funcionalidades para analizar imágenes y vídeos y extraer descripciones, etiquetas, objetos y texto.
  • Face: funcionalidades que permiten crear soluciones de detección de caras y reconocimiento facial.
  • Reconocimiento óptico de caracteres (OCR):funcionalidades para extraer texto impreso o manuscrito de imágenes, lo que permite el acceso a una versión digital del texto escaneado.