Obtención de conclusiones de detección de objetos
Detección de objetos
Video Indexer de Azure AI detecta objetos en vídeos como automóviles, bolsos y mochilas, y portátiles.
Objetos admitidos
- airplane
- Apple
- backpack
- plátano
- guante de béisbol
- cama
- bench
- bicicleta
- barco
- libro
- botella
- bolo
- brécol
- autobús
- pastel
- automóvil
- zanahoria
- cell phone
- silla
- clock
- mouse del equipo
- sofá
- taza
- mesa de comedor
- anillo
- fire hydrant
- bifurcación
- Frisbee
- secador
- bolso
- perro caliente
- métodos abreviados
- cometa
- knife
- laptop
- microonda
- moto
- mouse del equipo
- corbata
- orange
- horno
- parking meter
- pizza
- planta macetada
- sandwich
- scissors
- sink
- skateboard
- Esquís
- snow
- cuchara
- balón deportivo
- stop sign
- maleta
- tabla de surf
- osito de peluche
- raqueta de tenis
- tostadora
- baño
- Cepillo de dientes
- semáforo
- entrenar
- umbrella (paraguas)
- jarrón
- copa
Visualización del JSON de información con el portal web
Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.
- Seleccione la pestaña Biblioteca .
- Seleccione los medios con los que desea trabajar.
- Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
- Busque el par de claves descrito en la respuesta de ejemplo.
Uso de la API
- Use la solicitud Obtener índice de vídeo. Se recomienda pasar
&includeSummarizedInsights=false
. - Busque los pares de claves descritos en la respuesta de ejemplo.
Respuesta de ejemplo
Los objetos detectados y con seguimiento aparecen en "Objetos detectados" en el archivo insights.json descargado. Cada vez que se detecta un objeto único, se le asigna un identificador. También se realiza un seguimiento de ese objeto, lo que significa que el modelo inspecciona el objeto detectado para volver al marco. Si es así, se agrega otra instancia a las instancias del objeto con diferentes horas de inicio y finalización.
En este ejemplo, se detectó el primer coche y se le dio un identificador de 1, ya que también era el primer objeto detectado. A continuación, se detectó un coche diferente y se le dio el identificador de 23 desde que se detectó el 23º objeto. Más adelante, el primer coche apareció de nuevo y otra instancia se agregó al JSON. Este es el JSON resultante:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
Clave | Definición |
---|---|
ID | Número incremental de identificadores de los objetos detectados en el archivo multimedia |
Tipo | Tipo de objetos, por ejemplo, Car |
ThumbnailID | GUID que representa una única detección del objeto |
DisplayName | Nombre que se va a mostrar en la experiencia del portal vi |
WikiDataID | Un identificador único en la estructura WikiData |
Instancias | Lista de todas las instancias a las que se ha seguido el seguimiento |
Confianza | Puntuación entre 0 y 1 que indica la confianza de detección de objetos |
adjustedStart | hora de inicio ajustada del vídeo al usar el editor |
adjustedEnd | hora de finalización ajustada del vídeo al usar el editor |
start | la hora en que aparece el objeto en el marco |
end | la hora en que el objeto ya no aparece en el marco |
Componentes
No se define ningún componente para la detección de objetos.
Notas de transparencia
Importante
Es importante leer la información general de la nota de transparencia para todas las características vi. Cada información también tiene notas de transparencia propias:
- Hay hasta 20 detecciones por fotograma para el procesamiento estándar y avanzado y 35 pistas por clase.
- El tamaño del objeto no debe ser mayor que el 90 por ciento del marco. Es posible que no se reconozcan objetos muy grandes que abarquen constantemente una gran parte del marco.
- Los objetos pequeños o borrosos pueden ser difíciles de detectar. Se pueden perder o clasificar erróneamente (copa de vino, taza).
- Es posible que no se reconozcan los objetos transitorios y que aparecen en muy pocos fotogramas.
- Otros factores que podrían afectar a la precisión de la detección de objetos incluyen condiciones de poca luz, movimiento de cámara y oclusión.
- Video Indexer de Azure AI solo admite objetos reales. No hay compatibilidad con animaciones ni CGI. Los gráficos generados por el equipo (como las pegatinas de noticias) pueden producir resultados extraños.
- Los enlazadores, folletos y otros materiales escritos tienden a detectarse como "libro".