Compartir a través de


Habilitación de la ropa destacada de una persona observada

Al indexar un vídeo mediante la configuración avanzada de vídeo de Azure AI Video Indexer, puede ver la ropa destacada de una persona observada. La información proporciona momentos dentro del vídeo donde las personas clave están destacadas y claramente visibles, incluidas las coordenadas de la gente, la marca de tiempo y el marco de la toma. Esta información permite la publicidad contextual en vídeo de alta calidad, donde los anuncios de ropa relevantes se coinciden con el tiempo específico dentro del vídeo en el que se ven.

En este artículo se describe cómo visualizar la información de la ropa destacada y cómo se clasifican las imágenes de ropa destacada.

Ver un vídeo introductorio

Puede ver el siguiente vídeo corto que describe cómo ver y usar la información de ropa destacada.

La información sobre la ropa destacada está disponible cuando se indexa el archivo mediante la elección de la opción Avanzada -> Vídeo avanzado o Valores preestablecidos de audio y vídeo avanzado (en Indexación de vídeo y vídeo). La indexación estándar no incluye esta información.

Esta captura de pantalla representa una opción de indexación de vídeo

Las imágenes de ropa destacadas se clasifican en función de algunos de los siguientes factores: momentos clave del vídeo, duración que la persona aparece, emociones basadas en texto y eventos de audio. La información privada el fotograma de clasificación más alto por escena, lo que le permite generar anuncios contextuales por escena en todo el vídeo. El archivo JSON se clasifica por la secuencia de escenas del vídeo, con cada escena que tiene el fotograma mejor clasificado como resultado.

Nota:

La información de ropa destacada solo se puede ver desde el archivo de artefacto y la información no está en el sitio web de Azure AI Video Indexer.

  1. En la esquina superior derecha, seleccione el archivo ZIP del artefacto para descargarlo: Descargar ->Artefacto (ZIP)
  2. Abra featuredclothing.zip.

El archivo .zip contiene dos objetos:

  • featuredclothing.map.json : el archivo contiene instancias de cada ropa destacada, con las propiedades siguientes:

    • id: índice de clasificación ("id": 1 es la ropa más importante).
    • confidence: puntuación de la ropa destacada.
    • frameIndex: el mejor fotograma de la ropa.
    • timestamp : correspondiente a frameIndex.
    • opBoundingBox: rectángulo delimitador de la persona.
    • faceBoundingBox: rectángulo delimitador de la cara de la persona, si se detecta.
    • fileName: donde se guarda el mejor fotograma de la ropa.
    • sceneID : la escena donde aparece la escena.

    Un ejemplo de la ropa destacada con "sceneID": 1.

    "instances": [
      	{
        		"confidence": 0.07,
    			"faceBoundingBox": {},
    			"fileName": "frame_100.jpg",
        		"frameIndex": 100,
        		"opBoundingBox": {
            			"x": 0.09062,
            			"y": 0.4,
    				"width": 0.11302,
            			"height": 0.59722
    				},
       			 "timestamp": "0:00:04",
        		"personName": "Observed Person #1",
        		"sceneId": 1
      	}
    
  • featuredclothing.frames.map : esta carpeta contiene imágenes de los mejores fotogramas en los que apareció la ropa destacada, correspondiente a la propiedad fileName en cada instancia de featuredclothing.map.json.

Suposiciones y limitaciones

Es importante tener en cuenta las limitaciones de la ropa destacada para evitar o mitigar los efectos de las detecciones falsas de imágenes con calidad baja o relevancia baja. 

  • La condición previa para la ropa destacada es que la persona que lleva la ropa se puede encontrar en la información de las personas observadas.
  • Si no se detecta la cara de una persona que usa la ropa destacada, los resultados no incluyen el cuadro de límite de caras.
  • Si una persona de un vídeo lleva más de un atuendo, el algoritmo selecciona su mejor atuendo como una sola imagen de ropa destacada.
  • Al posar, los seguimientos están optimizados para controlar las personas observadas que más aparecen en primer plano.
  • Las detecciones equivocadas pueden producirse cuando las personas se superponen.
  • Los fotogramas que contienen personas desenfocadas son más propensos a resultados de baja calidad.

Para más información, consulte las limitaciones de las personas observadas.