Azure AI 视觉

已完成

虽然你可以训练自己的计算机视觉机器学习模型,但计算机视觉模型的体系结构可能比较复杂,你需要大量的训练图像和计算能力来执行训练过程。

Microsoft 的 Azure AI 视觉服务提供基于 Florence 基础模型的预生成和可自定义的计算机视觉模型,并提供各种强大的功能。 借助 Azure AI 视觉,你可以快速轻松地创建复杂的计算机视觉解决方案,利用许多常见计算机视觉方案的“现成”功能,同时保留使用自己的图像创建自定义模型的能力。

Azure AI 视觉服务的 Azure 资源

若要使用 Azure AI 视觉,需要在 Azure 订阅中为其创建资源。 你可以使用以下两种资源中的任意一种:

  • Azure AI 视觉:这是 Azure AI 视觉服务的一种特定资源。 如果你不打算使用任何其他 Azure AI 服务,或者要单独跟踪 Azure AI 视觉资源的利用率和成本,请使用此资源类型。
  • Azure AI 服务:包含 Azure AI 视觉以及其他许多 Azure AI 服务(例如 Azure AI 语言、Azure AI 自定义视觉、Azure AI 翻译等)的常规资源。 如果计划使用多种 AI 服务并希望简化管理和开发,请使用此资源类型。

使用 Azure AI 视觉服务分析图像

在订阅中创建适当的资源后,可以将图像提交到 Azure AI 视觉服务,以便于执行各种分析任务。

Azure AI 视觉支持多种图像分析功能,包括:

  • 光学字符识别 (OCR) - 从图像中提取文本。
  • 生成图像描述文字和说明。
  • 检测图像中数千个常见物体。
  • 标记图像中的视觉特征

以上任务及更多任务都可以在 Azure AI 视觉 Studio 中执行

Screenshot of Vision Studio.

光学字符识别

Azure AI 视觉服务可以使用光学字符识别 (OCR) 功能来检测图像中的文本。 例如,请考虑以下杂货店中商品的营养标签的图像:

Diagram of a nutrition label.

Azure AI 视觉服务可以分析此图像并提取以下文本:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

提示

你可以在 Microsoft Learn 上的使用 Azure AI 视觉阅读文本模块中进一步探索 Azure AI 视觉的 OCR 功能

使用描述文字描述图像

Azure AI 视觉可以分析图像、评估检测到的对象,并生成可人工读取的短语或句子来描述在图像中检测到的内容。 例如,考虑以下图像:

Diagram of a man on a skateboard.

Azure AI 视觉返回此图像的以下描述文字:

一名男子跳上滑板

检测图像中的常见物体

Azure AI 视觉可以识别图像中的数千个常见物体。 例如,使用 Azure AI 视觉检测之前讨论的滑板玩家图像中的物体时,将返回以下预测:

  • 滑板 (90.40%)
  • 人 (95.5%)

预测包括一个置信度分数,指示模型为预测物体计算的概率

除了检测到的物体标记及其概率外,Azure AI 视觉还返回边界框坐标,这些坐标指示检测到的物体顶部、左侧、宽度和高度。 你可以使用这些坐标来确定在图像中检测到每个物体的位置,如下所示:

Diagram of a skateboarder with bounding boxes around detected objects.

标记视觉特征

Azure AI 视觉可以根据图像的内容建议图像的标记。 这些标记可以作为汇总图像属性的元数据与图像相关联,如果想要将一组关键术语与某个图像一起索引,以便可以使用这些术语搜索具有特定属性或内容的图像,那么这种情况下这些标记会非常有用。

例如,为滑板玩家图像返回的标记(及相关的置信度分数)包括:

  • 运动 (99.60%)
  • 人 (99.56%)
  • 鞋类 (98.05%)
  • 滑板 (96.27%)
  • 板类运动 (95.58%)
  • 滑板装备 (94.43%)
  • 服装 (94.02%)
  • 墙 (93.81%)
  • 玩滑板 (93.78%)
  • 滑板玩家 (93.25%)
  • 个人运动 (92.80%)
  • 街头特技 (90.81%)
  • 平衡 (90.81%)
  • 跳跃 (89.87%)
  • 运动器材 (88.61%)
  • 极限运动 (88.35%)
  • 踢翻 (88.18%)
  • 特技 (87.27%)
  • 滑板 (86.87%)
  • 特技表演者 (85.83%)
  • 膝盖 (85.30%)
  • 运动 (85.24%)
  • 长板 (84.61%)
  • 玩长板 (84.45%)
  • 滑行 (73.37%)
  • 滑板 (67.27%)
  • 空中 (64.83%)
  • 年轻人 (63.29%)
  • 户外 (61.39%)

训练自定义模型

如果 Azure AI 视觉提供的内置模型无法满足你的需求,你可以使用此服务来训练用于图像分类或物体检测的自定义模型。 Azure AI 视觉在预先训练的基础模型上生成自定义模型,这意味着可以使用相对较少的训练图像来训练复杂的模型。

图像分类

图像分类模型用于预测图像的类别或分类。 例如,你可以训练一个模型来确定图像中显示的水果类型,如下所示:

苹果 香蕉 Orange
Diagram of an apple. Diagram of a banana. Diagram of an orange.

对象检测

物体检测模型检测图像中的物体并对其进行分类,返回边界框坐标来定位每个物体。 除了 Azure AI 视觉中的内置物体检测功能外,你还可以使用自己的图像来训练自定义物体检测模型。 例如,你可以使用水果照片来训练一个可检测图像中的多种水果的模型,如下所示:

Diagram of multiple detected fruits in an image.

注意

有关如何使用 Azure AI 视觉训练自定义模型的详细信息超出了本模块的范围。 你可以在 Azure AI 视觉文档中找到有关自定义模型训练的信息