Compartir a través de


Análisis de archivos de vídeo y audio con Azure Media Services

logotipo de Media Services v3


Advertencia

Azure Media Services se retirará el 30 de junio de 2024. Para obtener más información, consulte la Guía de retirada de AMS de .

Importante

Como describe el estándares de inteligencia artificial responsable de Microsoft, Microsoft se compromete a mantener la imparcialidad, la privacidad, la seguridad y la transparencia con respecto a los sistemas de inteligencia artificial. Para alinearse con estos estándares, Azure Media Services retira el valor preestablecido de Video Analyzer el 14 de septiembre de 2023. Este valor preestablecido actualmente permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. Los clientes pueden reemplazar sus flujos de trabajo actuales mediante el conjunto de características más avanzado que ofrece Azure Video Indexer.

Media Services le permite extraer información de los archivos de vídeo y audio mediante los valores preestablecidos del analizador de audio y vídeo. En este artículo se describen los valores preestablecidos del analizador que se usan para extraer información. Si quiere obtener información más detallada de los vídeos, use el servicio Azure Video Indexer. Para comprender cuándo usar los valores preestablecidos del analizador de Video Indexer frente a Media Services, consulte el documento de comparación de .

Hay dos modos para el valor preestablecido de Audio Analyzer, básico y estándar. Consulte la descripción de las diferencias en la tabla siguiente.

Para analizar el contenido mediante valores preestablecidos de Media Services v3, cree un de transformación de y envíe una de trabajo de que use uno de estos valores preestablecidos: VideoAnalyzerPreset o AudioAnalyzerPreset.

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Cumplimiento, privacidad y seguridad

Debe cumplir con todas las leyes aplicables en el uso de Video Indexer, y es posible que no use Video Indexer ni con ningún otro servicio de Azure de una manera que infrinja los derechos de otros usuarios o que puedan ser perjudiciales para otros. Antes de cargar los vídeos, incluidos los datos biométricos, al servicio Video Indexer para su procesamiento y almacenamiento, debe tener todos los derechos adecuados, incluidos todos los consentimientos adecuados, de los individuos del vídeo. Para obtener información sobre el cumplimiento, la privacidad y la seguridad en Video Indexer, los términos de Azure Cognitive Services. Para las obligaciones de privacidad y el tratamiento de los datos de Microsoft, revise la Declaración de privacidad de Microsoft, los términos de Online Services ("OST") y del anexo de procesamiento de datos ("DPA"). Hay más información de privacidad, incluida la retención de datos, la eliminación o destrucción, disponible en el OST. Al usar Video Indexer, acepta estar enlazado por los Términos de Cognitive Services, ost, DPA y la Declaración de privacidad.

Valores preestablecidos integrados

Media Services admite actualmente los siguientes valores preestablecidos de analizador integrados:

nombre preestablecido escenario/modo detalles
audioAnalyzerPreset Análisis del modo estándar de audio El valor preestablecido aplica un conjunto predefinido de operaciones de análisis basadas en IA, incluida la transcripción de voz. Actualmente, el valor preestablecido admite el procesamiento de contenido con una sola pista de audio que contiene voz en un solo idioma. Especifique el idioma de la carga de audio en la entrada mediante el formato BCP-47 de "idioma tag-region". Consulte la lista de idiomas admitidos a continuación para ver los códigos de idioma disponibles. La detección automática de idioma elige el primer idioma detectado y continúa con el idioma seleccionado para todo el archivo si no se establece o establece en NULL. La característica de detección automática de idiomas admite actualmente: inglés, chino, francés, alemán, italiano, japonés, español, ruso y portugués brasileño. No admite el cambio dinámico entre idiomas después de detectar el primer idioma. La característica de detección automática de idioma funciona mejor con grabaciones de audio con voz claramente perceptible. Si la detección automática de idioma no encuentra el idioma, la transcripción vuelve al inglés.
audioAnalyzerPreset Análisis del modo básico de audio Este modo preestablecido realiza la transcripción de voz a texto y la generación de un archivo de subtítulos y subtítulos de VTT. La salida de este modo incluye un archivo JSON de Insights, incluidas solo las palabras clave, la transcripción y la información de tiempo. La detección automática de idioma y la diarización del hablante no se incluyen en este modo. La lista de idiomas admitidos es idéntica al modo Estándar anterior.
VideoAnalyzerPreset Análisis de audio y vídeo Extrae información (metadatos enriquecidos) de audio y vídeo y genera un archivo de formato JSON. Puede especificar si solo desea extraer información de audio al procesar un archivo de vídeo.
FaceDetectorPreset Detección de caras presentes en vídeo Describe la configuración que se va a usar al analizar un vídeo para detectar todas las caras presentes.

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Idiomas admitidos

  • Árabe ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' y 'ar-SY')
  • Portugués brasileño ('pt-BR')
  • Chino ('zh-CN')
  • Danés('da-DK')
  • Inglés ('en-US', 'en-GB' y 'en-AU')
  • Finés ('fi-FI')
  • Francés ('fr-FR' y 'fr-CA')
  • Alemán ('de-DE')
  • Hebreo (he-IL)
  • Hindi ('hi-IN'), coreano ('ko-KR')
  • Italiano ('it-IT')
  • Japonés ('ja-JP')
  • Noruego ('nb-NO')
  • Persa ('fa-IR')
  • Portugués de Portugal ('pt-PT')
  • Ruso ('ru-RU')
  • Español ('es-ES' y 'es-MX')
  • Sueco ('sv-SE')
  • Tailandés ('th-TH')
  • Turco ('tr-TR')

Nota

AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.

Modo estándar AudioAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.

La salida incluye un archivo JSON (con todas las conclusiones) y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La información de audio incluye:

  • transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas.
  • palabras clave: palabras clave que se extraen de la transcripción de audio.

Modo básico AudioAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.

La salida incluye un archivo JSON y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La salida incluye:

  • transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas, pero no se incluyen la detección automática de idioma ni la diarización del hablante.
  • palabras clave: palabras clave que se extraen de la transcripción de audio.

VideoAnalyzerPreset

El valor preestablecido permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. La salida incluye un archivo JSON (con todas las conclusiones), un archivo VTT para la transcripción de vídeo y una colección de miniaturas. Este valor preestablecido también acepta una cadena de BCP47 (que representa el idioma del vídeo) como una propiedad. La información de vídeo incluye todas las conclusiones de audio mencionadas anteriormente y los siguientes elementos adicionales:

  • seguimiento de caras: el tiempo durante el cual las caras están presentes en el vídeo. Cada cara tiene un identificador de cara y una colección correspondiente de miniaturas.
  • texto visual: el texto que se detecta a través del reconocimiento óptico de caracteres. El texto tiene marca de tiempo y también se usa para extraer palabras clave (además de la transcripción de audio).
  • fotogramas clave: una colección de fotogramas clave extraídos del vídeo.
  • moderación de contenido visual: la parte de los vídeos marcados como adultos o racias por naturaleza.
  • anotación: resultado de anotar los vídeos en función de un modelo de objetos predefinido

elementos de insights.json

La salida incluye un archivo JSON (insights.json) con todas las conclusiones que se encuentran en el vídeo o audio. El json puede contener los siguientes elementos:

transcripción

Nombre Descripción
identificación Identificador de línea.
Mensaje de texto La propia transcripción.
Idioma Idioma de transcripción. Está pensado para admitir la transcripción en la que cada línea puede tener un idioma diferente.
Instancias Lista de intervalos de tiempo en los que apareció esta línea. Si la instancia es transcripción, solo tendrá una instancia.

Ejemplo:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nombre Descripción
identificación Identificador de línea de OCR.
Mensaje de texto Texto OCR.
confianza Confianza de reconocimiento.
Idioma Lenguaje OCR.
Instancias Una lista de intervalos de tiempo en los que apareció este OCR (el mismo OCR puede aparecer varias veces).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Caras

Nombre Descripción
identificación Identificador de la cara.
nombre Nombre de la cara. Puede ser "Desconocido #0", una celebridad identificada o una persona entrenada por el cliente.
confianza Confianza de identificación facial.
descripción Una descripción de la celebridad.
thumbnailId Identificador de la miniatura de esa cara.
knownPersonId Identificador interno (si es una persona conocida).
referenceId El identificador de Bing (si es una celebridad de Bing).
referenceType Actualmente solo Bing.
título El título (si es una celebridad, por ejemplo, "CEO de Microsoft").
imageUrl La dirección URL de la imagen, si es una celebridad.
Instancias Instancias en las que apareció la cara en el intervalo de tiempo especificado. Cada instancia también tiene un thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Tiros

Nombre Descripción
identificación Identificador de la captura.
fotogramas clave Una lista de fotogramas clave dentro de la captura (cada uno tiene un identificador y una lista de intervalos de tiempo de instancias). Las instancias de fotogramas clave tienen un campo thumbnailId con el identificador de miniatura del fotograma clave.
Instancias Una lista de intervalos de tiempo de esta captura (las capturas solo tienen una instancia).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

estadística

Nombre Descripción
CorrespondenciaCount Número de correspondencias en el vídeo.
WordCount Número de palabras por hablante.
SpeakerNumberOfFragments La cantidad de fragmentos que el hablante tiene en un vídeo.
SpeakerLongestMonolog Monolog más largo del altavoz. Si el hablante tiene silencios dentro del monolog, se incluye. Se quita el silencio al principio y al final del monolog.
SpeakerTalkToListenRatio El cálculo se basa en el tiempo invertido en el monolog del hablante (sin el silencio entre ellos) dividido por el tiempo total del vídeo. La hora se redondea al tercer separador decimal.

Etiquetas

Nombre Descripción
identificación Identificador de etiqueta.
nombre Nombre de la etiqueta (por ejemplo, "Equipo", "TV").
Idioma Idioma del nombre de etiqueta (cuando se traduce). BCP-47
Instancias Lista de intervalos de tiempo en los que apareció esta etiqueta (una etiqueta puede aparecer varias veces). Cada instancia tiene un campo de confianza.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Palabras clave

Nombre Descripción
identificación Identificador de palabra clave.
Mensaje de texto Texto de palabra clave.
confianza Confianza de reconocimiento de la palabra clave.
Idioma Lenguaje de palabra clave (cuando se traduce).
Instancias Lista de intervalos de tiempo en los que apareció esta palabra clave (una palabra clave puede aparecer varias veces).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

El bloque visualContentModeration contiene intervalos de tiempo que Video Indexer encontró que potencialmente tienen contenido para adultos. Si visualContentModeration está vacío, no hay contenido para adultos identificado.

Los vídeos que se encuentran para contener contenido para adultos o racy pueden estar disponibles solo para la vista privada. Los usuarios pueden enviar una solicitud de revisión humana del contenido, en cuyo caso el atributo IsAdult contendrá el resultado de la revisión humana.

Nombre Descripción
identificación Identificador de moderación de contenido visual.
adultScore Puntuación para adultos (de content moderator).
racyScore Puntuación de tono (de moderación de contenido).
Instancias Lista de intervalos de tiempo en los que apareció esta moderación de contenido visual.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Obtener ayuda y soporte técnico

Puede ponerse en contacto con Media Services con preguntas o seguir nuestras actualizaciones mediante uno de los métodos siguientes: