了解计算机视觉

已完成

计算机视觉是 AI 的一个领域,它负责处理视觉对象。 让我们了解一下计算机视觉带来的一些可能性。

Seeing AI 应用是一个很好的计算机视觉示例。 Seeing AI 应用专门面向盲人和弱视群体,它利用 AI 的力量来打开视觉世界,描述附近的人、文字和物体。

观看以下视频,详细了解 Seeing AI。

若要了解详细信息,请查看 Seeing AI 网页

计算机视觉模型和功能

大多数计算机视觉解决方案都基于机器学习模型,这些模型可应用于来自相机、视频或图像的视觉输入。 下表描述了常见的计算机视觉任务。

任务 说明
图像分类 An image of a taxi with the label
图像分类涉及训练机器学习模型,使其根据图像内容对图像进行分类。 例如,你可以在交通监控解决方案中使用图像分类模型,根据图像所包含的车辆类型(例如出租车、公共汽车、骑自行车的人等)对图像进行分类。
对象检测 An image of a street with buses, cars, and cyclists identified and highlighted with a bounding box.
对象检测机器学习模型经过训练,可以对图像中的单个对象进行分类,并使用边界框确定其位置。 例如,交通监控解决方案可使用对象检测来识别不同类别车辆的位置。
语义分割 An image of a street with the pixels belonging to buses, cars, and cyclists identified.
语义分割是一种高级机器学习技术,其中图像中的各个像素根据其所属的对象进行分类。 例如,交通监控解决方案可能会在交通图像上覆盖“蒙版”图层,以使用特定颜色突出显示不同的车辆。
图像分析 An image of a person with a dog on a street and the caption
你可以创建结合使用机器学习模型和高级图像分析技术从图像中提取信息的解决方案,包括可以帮助对图像进行归类的“标签”,甚至可以归纳总结图像中所示场景的描述性标题。
人脸检测、分析和识别 An image of multiple people on a city street with their faces highlighted.
人脸检测是对象检测的一种特殊形式,可以在图像中找出人脸。 这可以与分类和面部几何分析技术相结合,用于根据他们的面部特征来识别个人。
光学字符识别 (OCR) An image of a building with the sign
光学字符识别是一种用于检测和读取图像中文本的技术。 你可以使用 OCR 读取照片中的文字(例如:路标或店面),或从扫描的文档中提取信息,例如字母、发票或表格。

Microsoft Azure 中的计算机视觉服务

可使用 Microsoft 的 Azure AI 视觉来开发计算机视觉解决方案。 可在 Azure 视觉工作室和其他编程语言中使用和测试这些服务功能。 Azure AI 视觉的一些功能包括:

  • 图像分析:这些功能用于分析图像和视频,还用于提取说明、标记、对象和文本。
  • 人脸:这些功能让你能够构建人脸检测和面部识别解决方案。
  • 光学字符识别 (OCR):这些功能用于从图像中提取印刷文本或手写文本,使用户能够访问已扫描的文本的数字版本。