Azure AI 视觉
虽然你可以训练自己的计算机视觉机器学习模型,但计算机视觉模型的体系结构可能比较复杂,你需要大量的训练图像和计算能力来执行训练过程。
Microsoft 的 Azure AI 视觉服务提供基于 Florence 基础模型的预生成和可自定义的计算机视觉模型,并提供各种强大的功能。 借助 Azure AI 视觉,你可以快速轻松地创建复杂的计算机视觉解决方案,利用许多常见计算机视觉方案的“现成”功能,同时保留使用自己的图像创建自定义模型的能力。
Azure AI 视觉服务的 Azure 资源
若要使用 Azure AI 视觉,需要在 Azure 订阅中为其创建资源。 你可以使用以下两种资源中的任意一种:
- Azure AI 视觉:这是 Azure AI 视觉服务的一种特定资源。 如果你不打算使用任何其他 Azure AI 服务,或者要单独跟踪 Azure AI 视觉资源的利用率和成本,请使用此资源类型。
- Azure AI 服务:包含 Azure AI 视觉以及其他许多 Azure AI 服务(例如 Azure AI 语言、Azure AI 自定义视觉、Azure AI 翻译等)的常规资源。 如果计划使用多种 AI 服务并希望简化管理和开发,请使用此资源类型。
使用 Azure AI 视觉服务分析图像
在订阅中创建适当的资源后,可以将图像提交到 Azure AI 视觉服务,以便于执行各种分析任务。
Azure AI 视觉支持多种图像分析功能,包括:
- 光学字符识别 (OCR) - 从图像中提取文本。
- 生成图像描述文字和说明。
- 检测图像中数千个常见物体。
- 标记图像中的视觉特征
以上任务及更多任务都可以在 Azure AI 视觉 Studio 中执行。
光学字符识别
Azure AI 视觉服务可以使用光学字符识别 (OCR) 功能来检测图像中的文本。 例如,请考虑以下杂货店中商品的营养标签的图像:
Azure AI 视觉服务可以分析此图像并提取以下文本:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
提示
你可以在 Microsoft Learn 上的使用 Azure AI 视觉阅读文本模块中进一步探索 Azure AI 视觉的 OCR 功能。
使用描述文字描述图像
Azure AI 视觉可以分析图像、评估检测到的对象,并生成可人工读取的短语或句子来描述在图像中检测到的内容。 例如,考虑以下图像:
Azure AI 视觉返回此图像的以下描述文字:
一名男子跳上滑板
检测图像中的常见物体
Azure AI 视觉可以识别图像中的数千个常见物体。 例如,使用 Azure AI 视觉检测之前讨论的滑板玩家图像中的物体时,将返回以下预测:
- 滑板 (90.40%)
- 人 (95.5%)
预测包括一个置信度分数,指示模型为预测物体计算的概率。
除了检测到的物体标记及其概率外,Azure AI 视觉还返回边界框坐标,这些坐标指示检测到的物体顶部、左侧、宽度和高度。 你可以使用这些坐标来确定在图像中检测到每个物体的位置,如下所示:
标记视觉特征
Azure AI 视觉可以根据图像的内容建议图像的标记。 这些标记可以作为汇总图像属性的元数据与图像相关联,如果想要将一组关键术语与某个图像一起索引,以便可以使用这些术语搜索具有特定属性或内容的图像,那么这种情况下这些标记会非常有用。
例如,为滑板玩家图像返回的标记(及相关的置信度分数)包括:
- 运动 (99.60%)
- 人 (99.56%)
- 鞋类 (98.05%)
- 滑板 (96.27%)
- 板类运动 (95.58%)
- 滑板装备 (94.43%)
- 服装 (94.02%)
- 墙 (93.81%)
- 玩滑板 (93.78%)
- 滑板玩家 (93.25%)
- 个人运动 (92.80%)
- 街头特技 (90.81%)
- 平衡 (90.81%)
- 跳跃 (89.87%)
- 运动器材 (88.61%)
- 极限运动 (88.35%)
- 踢翻 (88.18%)
- 特技 (87.27%)
- 滑板 (86.87%)
- 特技表演者 (85.83%)
- 膝盖 (85.30%)
- 运动 (85.24%)
- 长板 (84.61%)
- 玩长板 (84.45%)
- 滑行 (73.37%)
- 滑板 (67.27%)
- 空中 (64.83%)
- 年轻人 (63.29%)
- 户外 (61.39%)
训练自定义模型
如果 Azure AI 视觉提供的内置模型无法满足你的需求,你可以使用此服务来训练用于图像分类或物体检测的自定义模型。 Azure AI 视觉在预先训练的基础模型上生成自定义模型,这意味着可以使用相对较少的训练图像来训练复杂的模型。
图像分类
图像分类模型用于预测图像的类别或分类。 例如,你可以训练一个模型来确定图像中显示的水果类型,如下所示:
苹果 | 香蕉 | Orange |
---|---|---|
对象检测
物体检测模型检测图像中的物体并对其进行分类,返回边界框坐标来定位每个物体。 除了 Azure AI 视觉中的内置物体检测功能外,你还可以使用自己的图像来训练自定义物体检测模型。 例如,你可以使用水果照片来训练一个可检测图像中的多种水果的模型,如下所示:
注意
有关如何使用 Azure AI 视觉训练自定义模型的详细信息超出了本模块的范围。 你可以在 Azure AI 视觉文档中找到有关自定义模型训练的信息。