获取对象检测见解
对象检测
Azure AI 视频索引器检测视频中的对象,例如汽车、手提包和背包和笔记本电脑。
支持的对象
- airplane
- apple
- 背包
- banana
- 棒球手套
- 床
- 长椅
- 自行车
- 船只
- 书籍
- 瓶
- bowl
- 西兰花
- 公交车
- 蛋糕
- car
- 胡萝卜
- cell phone
- 椅子
- clock
- 计算机鼠标
- 沙发
- 杯子
- 餐桌
- donut
- 消防栓
- 分支
- 飞盘
- 电吹风
- 手提包
- 热狗
- keyboard
- 风筝
- knife
- laptop
- 微波
- 摩托车
- 计算机鼠标
- 领带
- orange
- 烤箱
- 停车计时器
- pizza
- 盆花
- sandwich
- scissors
- 接收器
- skateboard
- 滑雪板
- 滑雪板
- 勺子
- 运动球
- 停车标志
- 手提箱
- 冲浪板
- 玩具熊
- 网球拍
- 吐司炉
- 厕所
- 牙刷
- 交通灯
- 定型 (train)
- 雨伞
- 花瓶
- 酒杯
使用 Web 门户查看见解 JSON
上传并编制视频索引后,可以使用 JSON 格式获取见解,以便使用 Web 门户进行下载。
- 选择“ 库 ”选项卡。
- 选择要处理的媒体。
- 选择“下载”和“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
- 查找示例响应中所述的密钥对。
使用 API
- 使用“获取视频索引”请求。 建议传递
&includeSummarizedInsights=false
。 - 查找示例响应中所述的密钥对。
示例响应
检测到和跟踪的对象显示在下载 的insights.json 文件中的“检测到的对象”下。 每次检测到唯一对象时,都会为其指定 ID。 该对象也会被跟踪,这意味着模型监视检测到的对象以返回到帧。 如果这样做,则会将另一个实例添加到具有不同开始和结束时间的对象实例中。
在此示例中,检测到第一辆车,并给出 ID 为 1,因为它也是检测到的第一个对象。 然后,检测到另一辆车,该车被赋予 ID 为 23,因为它是检测到的第 23 个对象。 后来,第一辆车再次出现,另一个实例已添加到 JSON。 下面是生成的 JSON:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
键 | 定义 |
---|---|
ID | 媒体文件中检测到对象的增量 ID 数 |
类型 | 对象类型,例如 Car |
ThumbnailID | 表示对对象的单个检测的 GUID |
displayName | 要显示在 VI 门户体验中的名称 |
WikiDataID | WikiData 结构中的唯一标识符 |
实例 | 跟踪的所有实例的列表 |
Confidence | 0-1 之间的分数,指示对象检测置信度 |
adjustedStart | 使用编辑器时调整了视频的开始时间 |
adjustedEnd | 使用编辑器时调整了视频的结束时间 |
start | 对象出现在框架中的时间 |
end | 对象不再出现在帧中的时间 |
组件
没有为对象检测定义任何组件。
透明度说明
重要
阅读 所有 VI 功能的透明度说明概述 非常重要。 每个见解也有其自己的透明度说明:
- 每个帧最多有 20 个检测用于标准和高级处理,每个类最多有 35 个轨迹。
- 对象大小不应大于帧的 90%。 无法识别一致跨越大部分帧的大型对象。
- 小型或模糊对象可能难以检测。 他们要么被错过,要么被错误分类(酒杯,杯子)。
- 无法识别暂时性且出现在极少数帧中的对象。
- 可能影响物体检测准确性的其他因素包括低光条件、相机运动和遮挡。
- Azure AI 视频索引器仅支持实际对象。 不支持动画或 CGI。 计算机生成的图形(如新闻贴纸)可能会产生奇怪的结果。
- 联编机、小册子和其他书面材料往往被检测为“书籍”。