Análisis de archivos de vídeo y audio con Azure Media Services

Artículo
03/02/2023

logotipo de

Advertencia

Azure Media Services se retirará el 30 de junio de 2024. Para obtener más información, consulte la Guía de retirada de AMS de .

Importante

Como describe el estándares de inteligencia artificial responsable de Microsoft, Microsoft se compromete a mantener la imparcialidad, la privacidad, la seguridad y la transparencia con respecto a los sistemas de inteligencia artificial. Para alinearse con estos estándares, Azure Media Services retira el valor preestablecido de Video Analyzer el 14 de septiembre de 2023. Este valor preestablecido actualmente permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. Los clientes pueden reemplazar sus flujos de trabajo actuales mediante el conjunto de características más avanzado que ofrece Azure Video Indexer.

Media Services le permite extraer información de los archivos de vídeo y audio mediante los valores preestablecidos del analizador de audio y vídeo. En este artículo se describen los valores preestablecidos del analizador que se usan para extraer información. Si quiere obtener información más detallada de los vídeos, use el servicio Azure Video Indexer. Para comprender cuándo usar los valores preestablecidos del analizador de Video Indexer frente a Media Services, consulte el documento de comparación de .

Hay dos modos para el valor preestablecido de Audio Analyzer, básico y estándar. Consulte la descripción de las diferencias en la tabla siguiente.

Para analizar el contenido mediante valores preestablecidos de Media Services v3, cree un de transformación de y envíe una de trabajo de que use uno de estos valores preestablecidos: VideoAnalyzerPreset o AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Cumplimiento, privacidad y seguridad

Debe cumplir con todas las leyes aplicables en el uso de Video Indexer, y es posible que no use Video Indexer ni con ningún otro servicio de Azure de una manera que infrinja los derechos de otros usuarios o que puedan ser perjudiciales para otros. Antes de cargar los vídeos, incluidos los datos biométricos, al servicio Video Indexer para su procesamiento y almacenamiento, debe tener todos los derechos adecuados, incluidos todos los consentimientos adecuados, de los individuos del vídeo. Para obtener información sobre el cumplimiento, la privacidad y la seguridad en Video Indexer, los términos de Azure Cognitive Services. Para las obligaciones de privacidad y el tratamiento de los datos de Microsoft, revise la Declaración de privacidad de Microsoft, los términos de Online Services ("OST") y del anexo de procesamiento de datos ("DPA"). Hay más información de privacidad, incluida la retención de datos, la eliminación o destrucción, disponible en el OST. Al usar Video Indexer, acepta estar enlazado por los Términos de Cognitive Services, ost, DPA y la Declaración de privacidad.

Valores preestablecidos integrados

Media Services admite actualmente los siguientes valores preestablecidos de analizador integrados:

nombre preestablecido	escenario/modo	detalles
audioAnalyzerPreset	Análisis del modo estándar de audio	El valor preestablecido aplica un conjunto predefinido de operaciones de análisis basadas en IA, incluida la transcripción de voz. Actualmente, el valor preestablecido admite el procesamiento de contenido con una sola pista de audio que contiene voz en un solo idioma. Especifique el idioma de la carga de audio en la entrada mediante el formato BCP-47 de "idioma tag-region". Consulte la lista de idiomas admitidos a continuación para ver los códigos de idioma disponibles. La detección automática de idioma elige el primer idioma detectado y continúa con el idioma seleccionado para todo el archivo si no se establece o establece en NULL. La característica de detección automática de idiomas admite actualmente: inglés, chino, francés, alemán, italiano, japonés, español, ruso y portugués brasileño. No admite el cambio dinámico entre idiomas después de detectar el primer idioma. La característica de detección automática de idioma funciona mejor con grabaciones de audio con voz claramente perceptible. Si la detección automática de idioma no encuentra el idioma, la transcripción vuelve al inglés.
audioAnalyzerPreset	Análisis del modo básico de audio	Este modo preestablecido realiza la transcripción de voz a texto y la generación de un archivo de subtítulos y subtítulos de VTT. La salida de este modo incluye un archivo JSON de Insights, incluidas solo las palabras clave, la transcripción y la información de tiempo. La detección automática de idioma y la diarización del hablante no se incluyen en este modo. La lista de idiomas admitidos es idéntica al modo Estándar anterior.
VideoAnalyzerPreset	Análisis de audio y vídeo	Extrae información (metadatos enriquecidos) de audio y vídeo y genera un archivo de formato JSON. Puede especificar si solo desea extraer información de audio al procesar un archivo de vídeo.
FaceDetectorPreset	Detección de caras presentes en vídeo	Describe la configuración que se va a usar al analizar un vídeo para detectar todas las caras presentes.

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Idiomas admitidos

Árabe ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' y 'ar-SY')
Portugués brasileño ('pt-BR')
Chino ('zh-CN')
Danés('da-DK')
Inglés ('en-US', 'en-GB' y 'en-AU')
Finés ('fi-FI')
Francés ('fr-FR' y 'fr-CA')
Alemán ('de-DE')
Hebreo (he-IL)
Hindi ('hi-IN'), coreano ('ko-KR')
Italiano ('it-IT')
Japonés ('ja-JP')
Noruego ('nb-NO')
Persa ('fa-IR')
Portugués de Portugal ('pt-PT')
Ruso ('ru-RU')
Español ('es-ES' y 'es-MX')
Sueco ('sv-SE')
Tailandés ('th-TH')
Turco ('tr-TR')

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Modo estándar AudioAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.

La salida incluye un archivo JSON (con todas las conclusiones) y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La información de audio incluye:

transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas.
palabras clave: palabras clave que se extraen de la transcripción de audio.

Modo básico AudioAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.

La salida incluye un archivo JSON y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La salida incluye:

transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas, pero no se incluyen la detección automática de idioma ni la diarización del hablante.
palabras clave: palabras clave que se extraen de la transcripción de audio.

VideoAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. La salida incluye un archivo JSON (con todas las conclusiones), un archivo VTT para la transcripción de vídeo y una colección de miniaturas. Este valor preestablecido también acepta una cadena de BCP47 (que representa el idioma del vídeo) como una propiedad. La información de vídeo incluye todas las conclusiones de audio mencionadas anteriormente y los siguientes elementos adicionales:

seguimiento de caras: el tiempo durante el cual las caras están presentes en el vídeo. Cada cara tiene un identificador de cara y una colección correspondiente de miniaturas.
texto visual: el texto que se detecta a través del reconocimiento óptico de caracteres. El texto tiene marca de tiempo y también se usa para extraer palabras clave (además de la transcripción de audio).
fotogramas clave: una colección de fotogramas clave extraídos del vídeo.
moderación de contenido visual: la parte de los vídeos marcados como adultos o racias por naturaleza.
anotación: resultado de anotar los vídeos en función de un modelo de objetos predefinido

elementos de insights.json

La salida incluye un archivo JSON (insights.json) con todas las conclusiones que se encuentran en el vídeo o audio. El json puede contener los siguientes elementos:

transcripción

Nombre	Descripción
identificación	Identificador de línea.
Mensaje de texto	La propia transcripción.
Idioma	Idioma de transcripción. Está pensado para admitir la transcripción en la que cada línea puede tener un idioma diferente.
Instancias	Lista de intervalos de tiempo en los que apareció esta línea. Si la instancia es transcripción, solo tendrá una instancia.

Ejemplo:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nombre	Descripción
identificación	Identificador de línea de OCR.
Mensaje de texto	Texto OCR.
confianza	Confianza de reconocimiento.
Idioma	Lenguaje OCR.
Instancias	Una lista de intervalos de tiempo en los que apareció este OCR (el mismo OCR puede aparecer varias veces).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Caras

Nombre	Descripción
identificación	Identificador de la cara.
nombre	Nombre de la cara. Puede ser "Desconocido #0", una celebridad identificada o una persona entrenada por el cliente.
confianza	Confianza de identificación facial.
descripción	Una descripción de la celebridad.
thumbnailId	Identificador de la miniatura de esa cara.
knownPersonId	Identificador interno (si es una persona conocida).
referenceId	El identificador de Bing (si es una celebridad de Bing).
referenceType	Actualmente solo Bing.
título	El título (si es una celebridad, por ejemplo, "CEO de Microsoft").
imageUrl	La dirección URL de la imagen, si es una celebridad.
Instancias	Instancias en las que apareció la cara en el intervalo de tiempo especificado. Cada instancia también tiene un thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Tiros

Nombre	Descripción
identificación	Identificador de la captura.
fotogramas clave	Una lista de fotogramas clave dentro de la captura (cada uno tiene un identificador y una lista de intervalos de tiempo de instancias). Las instancias de fotogramas clave tienen un campo thumbnailId con el identificador de miniatura del fotograma clave.
Instancias	Una lista de intervalos de tiempo de esta captura (las capturas solo tienen una instancia).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

estadística

Nombre	Descripción
CorrespondenciaCount	Número de correspondencias en el vídeo.
WordCount	Número de palabras por hablante.
SpeakerNumberOfFragments	La cantidad de fragmentos que el hablante tiene en un vídeo.
SpeakerLongestMonolog	Monolog más largo del altavoz. Si el hablante tiene silencios dentro del monolog, se incluye. Se quita el silencio al principio y al final del monolog.
SpeakerTalkToListenRatio	El cálculo se basa en el tiempo invertido en el monolog del hablante (sin el silencio entre ellos) dividido por el tiempo total del vídeo. La hora se redondea al tercer separador decimal.

Etiquetas

Nombre	Descripción
identificación	Identificador de etiqueta.
nombre	Nombre de la etiqueta (por ejemplo, "Equipo", "TV").
Idioma	Idioma del nombre de etiqueta (cuando se traduce). BCP-47
Instancias	Lista de intervalos de tiempo en los que apareció esta etiqueta (una etiqueta puede aparecer varias veces). Cada instancia tiene un campo de confianza.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Palabras clave

Nombre	Descripción
identificación	Identificador de palabra clave.
Mensaje de texto	Texto de palabra clave.
confianza	Confianza de reconocimiento de la palabra clave.
Idioma	Lenguaje de palabra clave (cuando se traduce).
Instancias	Lista de intervalos de tiempo en los que apareció esta palabra clave (una palabra clave puede aparecer varias veces).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

El bloque visualContentModeration contiene intervalos de tiempo que Video Indexer encontró que potencialmente tienen contenido para adultos. Si visualContentModeration está vacío, no hay contenido para adultos identificado.

Los vídeos que se encuentran para contener contenido para adultos o racy pueden estar disponibles solo para la vista privada. Los usuarios pueden enviar una solicitud de revisión humana del contenido, en cuyo caso el atributo IsAdult contendrá el resultado de la revisión humana.

Nombre	Descripción
identificación	Identificador de moderación de contenido visual.
adultScore	Puntuación para adultos (de content moderator).
racyScore	Puntuación de tono (de moderación de contenido).
Instancias	Lista de intervalos de tiempo en los que apareció esta moderación de contenido visual.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Obtener ayuda y soporte técnico

Puede ponerse en contacto con Media Services con preguntas o seguir nuestras actualizaciones mediante uno de los métodos siguientes:

Q & A
stack Overflow. Etiquete preguntas con azure-media-services.
@MSFTAzureMedia o use @AzureSupport para solicitar soporte técnico.
Abra una incidencia de soporte técnico a través de Azure Portal.

Compartir a través de

Análisis de archivos de vídeo y audio con Azure Media Services

Cumplimiento, privacidad y seguridad

Valores preestablecidos integrados

Idiomas admitidos

Modo estándar AudioAnalyzerPreset

Modo básico AudioAnalyzerPreset

VideoAnalyzerPreset

elementos de insights.json

transcripción

Ocr

Caras

Tiros

estadística

Etiquetas

Palabras clave

visualContentModeration

Obtener ayuda y soporte técnico

Recursos adicionales