Azure AI 视觉
虽然可以训练自己的计算机视觉机器学习模型,但计算机视觉模型的体系结构可能比较复杂:并且需要大量的训练图像和计算能力来执行训练过程。
Microsoft的 Azure AI 视觉服务提供基于佛罗伦萨基础模型的预生成和可自定义的计算机视觉模型,并提供各种强大的功能。 借助 Azure AI 视觉,可以快速轻松地创建复杂的计算机视觉解决方案;利用许多常见计算机视觉方案的“现成”功能,同时保留使用自己的图像创建自定义模型的能力。
Azure AI 视觉服务的 Azure 资源
若要使用 Azure AI 视觉,需要在 Azure 订阅中创建资源。 可以使用以下任一资源类型:
- Azure AI 视觉:Azure AI 视觉服务的特定资源。 如果不打算使用任何其他 Azure AI 服务,或者想要单独跟踪 Azure AI 视觉资源的利用率和成本,请使用此资源类型。
- Azure AI 服务:包括 Azure AI 视觉和其他许多 Azure AI 服务的常规资源;例如 Azure AI 语言、Azure AI 自定义视觉、Azure AI 翻译器等。 如果计划使用多个 AI 服务并想要简化管理和开发,请使用此资源类型。
使用 Azure AI 视觉服务分析图像
在订阅中创建合适的资源后,可以将图像提交到 Azure AI 视觉服务以执行各种分析任务。
Azure AI 视觉支持多个图像分析功能,包括:
- 光学字符识别 (OCR) - 从图像中提取文本。
- 生成图像标题和描述。
- 检测图像中的数千个常见对象。
- 标记图像中的视觉特征
这些任务及更多内容,可以在 Azure AI Vision Studio中执行。
视觉工作室的
光学字符识别
Azure AI 视觉服务可以使用光学字符识别(OCR)功能检测图像中的文本。 例如,请考虑杂货店中产品上营养标签的下图:
Azure AI 视觉服务可以分析此图像并提取以下文本:
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
提示
可以在 Microsoft Learn 上的 Azure AI 视觉模块的阅读文本中进一步探索 Azure AI 视觉的 OCR 功能。
使用标题描述图像
Azure AI 视觉能够分析图像、评估检测到的对象,并生成可读短语或句子,用于描述图像中检测到的内容。 例如,请考虑下图:
Azure AI 视觉为此图像生成以下标题:
一名男子跳上滑板
检测图像中的常见对象
Azure AI 视觉可以识别图像中的数千个常见对象。 例如,用于检测之前讨论的滑板图像中的对象时,Azure AI 视觉将返回以下预测:
- 滑板 (90.40%)
- 人 (95.5%)
预测包括一个 置信度分数,指示模型为预测对象计算的概率。
除了检测到的对象标签及其概率外,Azure AI 视觉还返回 边界框 坐标,这些坐标指示检测到的对象顶部、左侧、宽度和高度。 可以使用这些坐标来确定每个对象在图像中检测到的位置,如下所示:
标记视觉特征
Azure AI 视觉可以根据图像的内容为图像建议 标记。 这些标记可以与图像相关联,作为汇总图像属性的元数据,如果想要为图像编制索引,以及一组可用于搜索具有特定属性或内容的图像的关键术语,这些标记可能很有用。
例如,为滑板图像返回的标记(具有关联的置信度分数)包括:
- 体育(99.60%)
- 人(99.56%)
- 鞋类(98.05%)
- 滑冰(96.27%)
- 板类运动 (95.58%)
- 滑板设备(94.43%)
- 服装(94.02%)
- 墙(93.81%)
- 滑板(93.78%)
- 滑板运动员 (93.25%)
- 个人体育(92.80%)
- 街头特技(90.81%)
- 余额 (90.81%)
- 跳跃 (89.87%)
- 体育装备(88.61%)
- 极端运动(88.35%)
- 翻板动作(88.18%)
- 特技(87.27%)
- 滑板 (86.87%)
- 特技表演者(85.83%)
- 膝盖(85.30%)
- 体育(85.24%)
- 长板 (84.61%)
- 长板 (84.45%)
- 骑行 (73.37%)
- 滑冰 (67.27%)
- 空气 (64.83%)
- 年轻(63.29%)
- 户外(61.39%)
训练自定义模型
如果 Azure AI 视觉提供的内置模型不满足你的需求,可以使用该服务来训练自定义模型,以便 图像分类 或 对象检测。 Azure AI 视觉在预先训练的基础模型上生成自定义模型,这意味着可以使用相对较少的训练图像来训练复杂的模型。
图像分类
图像分类模型用于预测图像的类别或 类。 例如,可以训练模型来确定图像中显示的水果类型,如下所示:
苹果 | 香蕉 | 橙 |
---|---|---|
![]() |
香蕉图 ![]() |
![]() |
对象检测
对象检测模型检测图像中的对象并对其进行分类,返回边界框坐标以查找每个对象。 除了 Azure AI 视觉中的内置对象检测功能外,还可以使用自己的图像训练自定义对象检测模型。 例如,可以使用水果照片来训练一个模型,该模型可检测图像中的多个水果,如下所示:
注意
有关如何使用 Azure AI 视觉训练自定义模型的详细信息超出了本模块的范围。 可以在 Azure AI 视觉文档中找到有关自定义模型训练的信息。