Общие сведения о компьютерном зрении

Завершено

Компьютерное зрение — это область искусственного интеллекта, которая работает с визуальной обработкой. Рассмотрим некоторые возможности, которые предоставляет компьютерное зрение.

Приложение Seeing AI — это отличный пример эффективности компьютерного зрения. Приложение Seeing AI разработано для слепых и слабовидящих людей. В нем используются возможности искусственного интеллекта, чтобы описать визуальный мир, а также людей, текст и объекты поблизости.

Дополнительные сведения о приложении Seeing AI см. в следующем видео.

Чтобы узнать больше, перейдите на веб-сайт Seeing AI.

Модели и возможности компьютерного зрения

Большинство решений для компьютерного зрения основаны на моделях машинного обучения, которые можно применять к визуальным входным данным с камер, видеозаписей или изображений. В следующей таблице описаны распространенные задачи компьютерного зрения.

Задача Description
Классификация изображений An image of a taxi with the label
Классификация изображений включает в себя обучение модели машинного обучения для классификации изображений на основе их содержимого. Например, в решении для мониторинга дорожного движения модель классификации изображений может использоваться для распознавания изображений на основе типа транспортных средств, например такси, автобусов, велосипедов и т. д.
Обнаружение объектов An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
Модели машинного обучения для обнаружения объектов обучены классификации отдельных объектов в изображении и определяют их расположение с помощью ограничивающего прямоугольника. Например, решение для мониторинга дорожного движения может использовать обнаружение объектов для определения местоположения различных классов транспортных средств.
Семантическая сегментация An image of a street with the pixels belonging to buses, cars, and cyclists identified.
Семантическая сегментация — это усовершенствованный метод машинного обучения, при котором отдельные пиксели в изображении классифицируются в соответствии с объектом, которому они принадлежат. Например, решение для мониторинга дорожного движения может накладывать изображения транспортных средств с помощью слоев маски, чтобы выделить их, используя определенные цвета.
Анализ изображений An image of a person with a dog on a street and the caption
Вы можете создавать решения, сочетающие модели машинного обучения с расширенными методами анализа изображений, для извлечения информации из изображений, включая теги, которые могут помочь каталогизировать изображение или даже субтитры, которые описывают сцену, показанную на изображении.
Обнаружение, анализ и распознавание лиц An image of multiple people on a city street with their faces highlighted.
Обнаружение лиц — это специализированная форма обнаружения объектов, которая находит людей на изображении. Это можно сочетать с методами анализа геометрических объектов классификации и лиц, чтобы распознавать людей на основе их черт лица.
Оптическое распознавание текста (OCR) An image of a building with the sign
Оптическое распознавание символов — это прием, используемый для обнаружения и чтения текста на изображениях. OCR можно использовать для чтения текста на фотографиях (например, дорожных знаках или витринах магазинов) или для извлечения информации из отсканированных документов, таких как письма, счета или формы.

Службы компьютерного зрения в Microsoft Azure

Вы можете использовать Microsoft Azure AI Vision для разработки решений компьютерного зрения. Функции службы доступны для использования и тестирования на языках Программирования Azure Vision Studio и других языках программирования. К некоторым функциям Azure AI Vision относятся:

  • Анализ изображений: возможности для анализа изображений и видео, а также извлечения описаний, тегов, объектов и текста.
  • Лицо: возможности, позволяющие создавать решения для распознавания лиц и распознавания лиц.
  • Оптическое распознавание символов (OCR): возможности извлечения печатного или рукописного текста из изображений, что позволяет получить доступ к цифровой версии сканированного текста.