你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
选择 Azure AI 图像和视频处理技术
Azure AI 服务通过现成的预生成可定制 API 和模型,帮助开发人员和组织快速创建智能、前沿、面向市场且负责任的应用程序。
本文介绍提供视频和图像处理功能的 Azure AI 服务,例如视觉分析和图像生成、对象检测、图像分类和面部识别。
服务
以下服务为 Azure AI 服务提供视频和图像处理功能:
-
- 使用 Azure OpenAI 通过预先训练的生成式图像模型从自然语言生成图像。 例如,按需生成自定义艺术。
- 如果需要对图像执行非特定、广泛分析,请使用 Azure OpenAI。 例如,生成辅助功能说明。
- 如果要使用 Azure 机器学习中提供的开放源代码图像生成模型,请不要使用 Azure OpenAI。
- 如果需要执行特定类型的图像处理(如表单提取、人脸识别或域专用图像特征检测),请不要使用 Azure OpenAI。 对于这些方案,请改用或生成专为这些目的专门训练的 AI 解决方案。
-
- 如果需要基本的光学字符识别(OCR)、图像分析或基本视频分析来检测运动和其他事件,请使用 视觉服务。
- 请不要使用视觉服务进行大型、多模式、基础模型已经支持的分析。
- 请不要使用视觉服务审查内容。 请改用内容安全服务。
-
- 当你对基本视觉服务的图像分析无法提供的特定要求时,请使用该服务。 例如,它非常适合识别异常对象、制造缺陷或提供详细的自定义分类。
- 如果需要基本对象检测或人脸检测,请不要使用该服务。 请改用人脸或视觉服务。
- 请不要将该服务用于基本可视化分析。 请改为在 Azure 机器学习中使用支持视觉的 Azure OpenAI 模型或开源模型中的模型。
-
- 如果需要检查人脸是真实的还是伪造的,或者识别、分组或查找相似的人脸时,请使用 脸服务。
- 请不要使用人脸服务来检测人脸的情绪或执行有关人脸的其他高级推理。 请改用多模式语言模型执行这些任务。
-
- 对于视觉服务的基本视频分析无法提供的高级视频分析相关任务,请使用 Azure 视频索引器。
- 请不要将 Azure 视频索引器服务用于基本视频分析任务,例如人数统计、运动和事件检测。 视觉服务的基本视频分析对这些任务更具成本效益。
Azure OpenAI
Azure OpenAI 提供对 OpenAI 的强大语言模型(包括最新一代 GPT 模型)的访问。 这些支持视觉分析和图像生成,DALL-E 支持图像生成。
Azure AI 视觉
Azure AI 视觉提供高级算法,这些算法根据你感兴趣的视觉功能处理图像并返回信息。 它提供以下四项服务:OCR、人脸服务、图像和空间分析。
功能
下表提供了 Azure AI 视觉服务中可用的功能列表。
功能 | 说明 |
---|---|
光学字符识别 (OCR) | 光学字符识别 (OCR) 服务从图像中提取文本。 可以使用读取 API 从图像和文档中提取印刷体文本和手写文本。 此 API 使用基于深度学习的模型,可处理各种表面和背景上的文本。 包括业务文档、发票、收据、海报、名片、信件和白板。 OCR API 支持提取多种语言的打印文本。 |
图像分析 | 图像分析服务从图像中提取许多视觉特征,例如对象、人脸和自动生成的文本说明。 使用基于 Florence 基础模型的图像分析 4.0,还可以创建自定义图像标识符模型。 |
视频分析 | 视频分析包括与视频相关的功能,例如空间分析和视频检索。 空间分析功能会分析视频源上人的存在和移动,并生成其他系统可以响应的事件。 |
Azure AI 自定义视觉
Azure AI 自定义视觉服务是一种图像识别服务,可用于构建、部署和改进你自己的图像标识符模型。 图像标识符会根据其视觉特征将标签应用到这些图像。 每个标签都表示一个分类或对象。 自定义视觉允许你指定自己的标签并训练自定义模型以对其进行检测。
自定义视觉服务使用机器学习算法来分析图像的自定义特征。 提交具有和不具有要查找的视觉特征的图像集。 然后在提交时,你使用自己的标签(标记)来自行标记这些图像。 此算法会针对该数据进行训练并计算其自己的准确度,方法是针对相同的图像自行进行测试。 训练模型以后,即可在图像识别应用中测试它、重新训练它并最终使用它对图像进行分类或检测物体。 也可导出模型,方便脱机使用。
功能
下表提供了 Azure AI 自定义视觉服务中可用的功能列表。
功能 | 说明 |
---|---|
图像分类 | 根据一组称为特征的输入来预测类别或类。 计算每个可能类的概率分数,并返回一个标签来指示对象最有可能属于的类。 若要使用此模型,需要包含特征及其标签的数据。 |
对象检测 | 获取图像中对象的坐标。 若要使用此模型,需要包含特征及其标签的数据 |
用例
下表提供了 Azure AI 自定义视觉服务可能用例的列表。
用例 | 说明 |
---|---|
配合使用自定义视觉和 IoT 设备来报告视觉状态 | 使用自定义视觉来训练带有相机的设备,以检测视觉状态。 可以使用导出的 ONNX 模型在物联网设备上运行此检测方案。 视觉状态描述图像的内容:空房间或有人的房间、空车道或有一辆卡车的车道等。 |
识别相机照片中的徽标 | 分析照片,查找特定徽标。 |
Azure AI 人脸
Azure AI 人脸服务提供用于检测、识别和分析图像中人脸的 AI 算法。 面部识别软件在许多方案中都很重要,例如标识、无接触访问控制和加强隐私的自动人脸模糊。
功能
下表提供了 Azure AI 人脸服务中可用的功能列表。
功能 | 说明 |
---|---|
人脸检测和分析 | 识别包含人脸的图像区域,通常通过返回范围框坐标来形成以人脸为中心的矩形。 |
查找相似人脸 | 查找相似人脸操作会在目标人脸和一组候选人脸之间进行人脸匹配,找出与目标人脸相似的一小组人脸。 这对于按图像进行人脸搜索很有用。 |
对人脸分组 | 组操作会基于相似性将未知人脸的集合分为几个较小的组。 每个组是原始人脸集合的互不相交真子集。 它还返回单个“messyGroup”数组,其中包含未找到相似性的人脸 ID。 |
标识 | 人脸识别可解决图像中一张人脸与安全存储库中一组人脸的“一对多”匹配问题。 根据其人脸数据与查询人脸的匹配程度,返回匹配候选项。 |
人脸识别操作 | 现代企业和应用可以使用人脸识别技术,包括人脸验证(“一对一”匹配)和人脸识别(“一对多”匹配)来确认用户身份。 |
活体检测 | 活体检测是一种反欺骗功能,用于检查用户是否实际出现在摄像头前。 它可用于防止使用打印的照片、录制的视频或用户面部的 3D 面具进行欺骗攻击。 |
用例
下表提供了 Azure AI 人脸服务可能用例的列表。
用例 | 说明 |
---|---|
验证用户标识。 | 根据可信人脸图像验证人员。 此验证可用于授予对数字或物理属性的访问权限。 在大多数情况下,受信任的人脸图像可能来自政府颁发的身份证(如护照或驾照),也可以来自亲自拍摄的注册照片。 在验证期间,活体检测在验证图像是否来自真人而不是打印的照片或面具方面起着关键作用。 |
面部修订 | 编辑或模糊视频中录制的检测到的人脸,以保护其隐私。 |
无接触访问控制。 | 与卡片或票证等方法相比,选择性人脸识别能够增强访问控制体验,同时降低因物理媒体共享、丢失或盗窃而带来的卫生和安全风险。 人脸识别可以帮助在机场、体育场馆、主题公园、建筑物或者办公室、医院、健身房、俱乐部或学校的接待亭进行人工值机。 |
Azure AI 视频索引器
Azure AI 视频索引器是构建在 Azure AI 服务(如人脸检测、翻译器、Azure AI 视觉和语音)基础之上的一个云应用程序,是 Azure AI 服务的一部分。 有了 Azure 视频索引器,就可以使用 Azure AI 视频索引器视频和音频模型从视频中提取见解。
功能
下表提供了 Azure AI 视频索引器服务中提供的某些功能的列表。
功能 | 说明 |
---|---|
多语言语音识别和听录 | 识别音频中不同段落中的口语。 它会发送要转录的媒体文件的每个片段,然后将转录合并成一个完成的转录。 |
人脸检测 | 检测和分组视频中显示的人脸。 |
名人识别 | 识别超过 100 万名人,如世界各国/地区领导人、演员、艺术家、运动员、研究人员、商业和科技领袖。 有关这些名人的数据也可以在各种网站(IMDB、维基百科等)上找到。 |
基于帐户的人脸识别 | 为特定帐户训练模型。 然后,根据已训练的模型识别视频中的人脸。 |
跟踪观测到的人员(预览版) | 检测视频中观测到的人员,并提供视频帧中人员的位置(使用边界框)以及人员出现时确切的时间戳(开始时间、结束时间)和置信度等信息。 |
音频听录 | 将语音转换为超过 50 种语言的文本并允许扩展。 |
语言检测 | 识别主要讲述语言。 |
降噪 | 清理电话音频或有噪音的录制内容(基于 Skype 滤波器)。 |
翻译 | 将音频脚本翻译成许多种不同的语言。 |
若要查看 Azure AI 视频索引器服务的更多功能,请参阅 Azure AI 视频索引器文档。
用例
下表提供了 Azure AI 视频索引器服务可能用例的列表。
用例 | 说明 |
---|---|
深度搜索 | 使用从视频中提取的见解可增强整个视频库的搜索体验。 例如,对所说内容和人脸进行索引,可以实现在视频中查找特定瞬间的搜索体验,例如,查找视频中某个人说出某些话时刻,或者看到两个人出现在一起的时刻。 根据视频中的此类见解进行的搜索,适用于新闻机构、教育机构、广播公司、娱乐内容所有者、企业 LOB 应用。一般来说,它适用于拥有视频库、用户需要对照搜索的任何行业。 |
内容创建 | 根据 Azure AI 视频索引器从你的内容中提取的见解,创建预告片、亮点片段、社交媒体内容或新闻剪辑。 人物和标签外观的关键帧、场景标记和时间戳使创建过程更顺畅、更简单,让你能够在创建内容时轻松访问所需的视频部分。 |
辅助功能 | 无论你是想将内容提供给残障人士使用,还是要使用不同的语言将内容分发到不同地区,你都可以使用 Azure AI 视频索引器提供多种语言的转录和翻译。 |
货币化 | Azure AI 视频索引器有助于提高视频的价值。 例如,依赖于广告收入(新闻媒体、社交媒体等)的行业,可以将提取的见解用作附加信号,向广告服务器投放相关广告。 |
内容审核 | 使用文本和视觉内容审核模型可保护用户远离不当内容,并验证发布的内容是否与组织的价值观相符。 你可以自动阻止某些视频,或向用户发出有关这些内容的警报。 |
建议 | 视频见解可以通过向用户重点显示相关视频瞬间来提高用户的参与度。 通过使用其他元数据标记每个视频,可以为用户推荐最相关的视频,并重点显示符合用户需求的视频的部分内容。 |
后续步骤
- 什么是 Azure AI 视觉?
- 学习路径:使用 Azure AI 服务开发自然语言处理解决方案
- 学习路径:Azure AI 服务入门
- 学习路径:Microsoft Azure AI 基础知识:计算机视觉
- 学习路径:利用 Azure AI 视觉创建计算机视觉解决方案
- 学习路径:利用 Azure IoT Edge 和 Azure AI 服务创建图像识别解决方案