Análisis de archivos de vídeo y audio con Azure Media Services
logotipo de
Advertencia
Azure Media Services se retirará el 30 de junio de 2024. Para obtener más información, consulte la Guía de retirada de AMS de .
Importante
Como describe el estándares de inteligencia artificial responsable de Microsoft, Microsoft se compromete a mantener la imparcialidad, la privacidad, la seguridad y la transparencia con respecto a los sistemas de inteligencia artificial. Para alinearse con estos estándares, Azure Media Services retira el valor preestablecido de Video Analyzer el 14 de septiembre de 2023. Este valor preestablecido actualmente permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. Los clientes pueden reemplazar sus flujos de trabajo actuales mediante el conjunto de características más avanzado que ofrece Azure Video Indexer.
Media Services le permite extraer información de los archivos de vídeo y audio mediante los valores preestablecidos del analizador de audio y vídeo. En este artículo se describen los valores preestablecidos del analizador que se usan para extraer información. Si quiere obtener información más detallada de los vídeos, use el servicio Azure Video Indexer. Para comprender cuándo usar los valores preestablecidos del analizador de Video Indexer frente a Media Services, consulte el documento de comparación de .
Hay dos modos para el valor preestablecido de Audio Analyzer, básico y estándar. Consulte la descripción de las diferencias en la tabla siguiente.
Para analizar el contenido mediante valores preestablecidos de Media Services v3, cree un de transformación de
Nota
AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.
Cumplimiento, privacidad y seguridad
Debe cumplir con todas las leyes aplicables en el uso de Video Indexer, y es posible que no use Video Indexer ni con ningún otro servicio de Azure de una manera que infrinja los derechos de otros usuarios o que puedan ser perjudiciales para otros. Antes de cargar los vídeos, incluidos los datos biométricos, al servicio Video Indexer para su procesamiento y almacenamiento, debe tener todos los derechos adecuados, incluidos todos los consentimientos adecuados, de los individuos del vídeo. Para obtener información sobre el cumplimiento, la privacidad y la seguridad en Video Indexer, los términos de Azure Cognitive Services. Para las obligaciones de privacidad y el tratamiento de los datos de Microsoft, revise la Declaración de privacidad de Microsoft, los términos de Online Services ("OST") y del anexo de procesamiento de datos ("DPA"). Hay más información de privacidad, incluida la retención de datos, la eliminación o destrucción, disponible en el OST. Al usar Video Indexer, acepta estar enlazado por los Términos de Cognitive Services, ost, DPA y la Declaración de privacidad.
Valores preestablecidos integrados
Media Services admite actualmente los siguientes valores preestablecidos de analizador integrados:
nombre preestablecido | escenario/modo | detalles |
---|---|---|
audioAnalyzerPreset | Análisis del modo estándar de audio | El valor preestablecido aplica un conjunto predefinido de operaciones de análisis basadas en IA, incluida la transcripción de voz. Actualmente, el valor preestablecido admite el procesamiento de contenido con una sola pista de audio que contiene voz en un solo idioma. Especifique el idioma de la carga de audio en la entrada mediante el formato BCP-47 de "idioma tag-region". Consulte la lista de idiomas admitidos a continuación para ver los códigos de idioma disponibles. La detección automática de idioma elige el primer idioma detectado y continúa con el idioma seleccionado para todo el archivo si no se establece o establece en NULL. La característica de detección automática de idiomas admite actualmente: inglés, chino, francés, alemán, italiano, japonés, español, ruso y portugués brasileño. No admite el cambio dinámico entre idiomas después de detectar el primer idioma. La característica de detección automática de idioma funciona mejor con grabaciones de audio con voz claramente perceptible. Si la detección automática de idioma no encuentra el idioma, la transcripción vuelve al inglés. |
audioAnalyzerPreset | Análisis del modo básico de audio | Este modo preestablecido realiza la transcripción de voz a texto y la generación de un archivo de subtítulos y subtítulos de VTT. La salida de este modo incluye un archivo JSON de Insights, incluidas solo las palabras clave, la transcripción y la información de tiempo. La detección automática de idioma y la diarización del hablante no se incluyen en este modo. La lista de idiomas admitidos es idéntica al modo Estándar anterior. |
|
Análisis de audio y vídeo | Extrae información (metadatos enriquecidos) de audio y vídeo y genera un archivo de formato JSON. Puede especificar si solo desea extraer información de audio al procesar un archivo de vídeo. |
FaceDetectorPreset | Detección de caras presentes en vídeo | Describe la configuración que se va a usar al analizar un vídeo para detectar todas las caras presentes. |
Nota
AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.
Idiomas admitidos
- Árabe ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' y 'ar-SY')
- Portugués brasileño ('pt-BR')
- Chino ('zh-CN')
- Danés('da-DK')
- Inglés ('en-US', 'en-GB' y 'en-AU')
- Finés ('fi-FI')
- Francés ('fr-FR' y 'fr-CA')
- Alemán ('de-DE')
- Hebreo (he-IL)
- Hindi ('hi-IN'), coreano ('ko-KR')
- Italiano ('it-IT')
- Japonés ('ja-JP')
- Noruego ('nb-NO')
- Persa ('fa-IR')
- Portugués de Portugal ('pt-PT')
- Ruso ('ru-RU')
- Español ('es-ES' y 'es-MX')
- Sueco ('sv-SE')
- Tailandés ('th-TH')
- Turco ('tr-TR')
Nota
AudioAnalyzerPreset no se admite si la cuenta de almacenamiento no tiene acceso a la red pública.
Modo estándar AudioAnalyzerPreset
El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.
La salida incluye un archivo JSON (con todas las conclusiones) y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La información de audio incluye:
- transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas.
- palabras clave: palabras clave que se extraen de la transcripción de audio.
Modo básico AudioAnalyzerPreset
El valor preestablecido permite extraer varias conclusiones de audio de un archivo de audio o vídeo.
La salida incluye un archivo JSON y un archivo VTT para la transcripción de audio. Este valor preestablecido acepta una propiedad que especifica el idioma del archivo de entrada en forma de una cadena de BCP47. La salida incluye:
- transcripción de audio: una transcripción de las palabras habladas con marcas de tiempo. Se admiten varios idiomas, pero no se incluyen la detección automática de idioma ni la diarización del hablante.
- palabras clave: palabras clave que se extraen de la transcripción de audio.
VideoAnalyzerPreset
El valor preestablecido permite extraer varias conclusiones de audio y vídeo de un archivo de vídeo. La salida incluye un archivo JSON (con todas las conclusiones), un archivo VTT para la transcripción de vídeo y una colección de miniaturas. Este valor preestablecido también acepta una cadena de BCP47 (que representa el idioma del vídeo) como una propiedad. La información de vídeo incluye todas las conclusiones de audio mencionadas anteriormente y los siguientes elementos adicionales:
- seguimiento de caras: el tiempo durante el cual las caras están presentes en el vídeo. Cada cara tiene un identificador de cara y una colección correspondiente de miniaturas.
- texto visual: el texto que se detecta a través del reconocimiento óptico de caracteres. El texto tiene marca de tiempo y también se usa para extraer palabras clave (además de la transcripción de audio).
- fotogramas clave: una colección de fotogramas clave extraídos del vídeo.
- moderación de contenido visual: la parte de los vídeos marcados como adultos o racias por naturaleza.
- anotación: resultado de anotar los vídeos en función de un modelo de objetos predefinido
elementos de insights.json
La salida incluye un archivo JSON (insights.json) con todas las conclusiones que se encuentran en el vídeo o audio. El json puede contener los siguientes elementos:
transcripción
Nombre | Descripción |
---|---|
identificación | Identificador de línea. |
Mensaje de texto | La propia transcripción. |
Idioma | Idioma de transcripción. Está pensado para admitir la transcripción en la que cada línea puede tener un idioma diferente. |
Instancias | Lista de intervalos de tiempo en los que apareció esta línea. Si la instancia es transcripción, solo tendrá una instancia. |
Ejemplo:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Nombre | Descripción |
---|---|
identificación | Identificador de línea de OCR. |
Mensaje de texto | Texto OCR. |
confianza | Confianza de reconocimiento. |
Idioma | Lenguaje OCR. |
Instancias | Una lista de intervalos de tiempo en los que apareció este OCR (el mismo OCR puede aparecer varias veces). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Caras
Nombre | Descripción |
---|---|
identificación | Identificador de la cara. |
nombre | Nombre de la cara. Puede ser "Desconocido #0", una celebridad identificada o una persona entrenada por el cliente. |
confianza | Confianza de identificación facial. |
descripción | Una descripción de la celebridad. |
thumbnailId | Identificador de la miniatura de esa cara. |
knownPersonId | Identificador interno (si es una persona conocida). |
referenceId | El identificador de Bing (si es una celebridad de Bing). |
referenceType | Actualmente solo Bing. |
título | El título (si es una celebridad, por ejemplo, "CEO de Microsoft"). |
imageUrl | La dirección URL de la imagen, si es una celebridad. |
Instancias | Instancias en las que apareció la cara en el intervalo de tiempo especificado. Cada instancia también tiene un thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Tiros
Nombre | Descripción |
---|---|
identificación | Identificador de la captura. |
fotogramas clave | Una lista de fotogramas clave dentro de la captura (cada uno tiene un identificador y una lista de intervalos de tiempo de instancias). Las instancias de fotogramas clave tienen un campo thumbnailId con el identificador de miniatura del fotograma clave. |
Instancias | Una lista de intervalos de tiempo de esta captura (las capturas solo tienen una instancia). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
estadística
Nombre | Descripción |
---|---|
CorrespondenciaCount | Número de correspondencias en el vídeo. |
WordCount | Número de palabras por hablante. |
SpeakerNumberOfFragments | La cantidad de fragmentos que el hablante tiene en un vídeo. |
SpeakerLongestMonolog | Monolog más largo del altavoz. Si el hablante tiene silencios dentro del monolog, se incluye. Se quita el silencio al principio y al final del monolog. |
SpeakerTalkToListenRatio | El cálculo se basa en el tiempo invertido en el monolog del hablante (sin el silencio entre ellos) dividido por el tiempo total del vídeo. La hora se redondea al tercer separador decimal. |
Etiquetas
Nombre | Descripción |
---|---|
identificación | Identificador de etiqueta. |
nombre | Nombre de la etiqueta (por ejemplo, "Equipo", "TV"). |
Idioma | Idioma del nombre de etiqueta (cuando se traduce). BCP-47 |
Instancias | Lista de intervalos de tiempo en los que apareció esta etiqueta (una etiqueta puede aparecer varias veces). Cada instancia tiene un campo de confianza. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Palabras clave
Nombre | Descripción |
---|---|
identificación | Identificador de palabra clave. |
Mensaje de texto | Texto de palabra clave. |
confianza | Confianza de reconocimiento de la palabra clave. |
Idioma | Lenguaje de palabra clave (cuando se traduce). |
Instancias | Lista de intervalos de tiempo en los que apareció esta palabra clave (una palabra clave puede aparecer varias veces). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
El bloque visualContentModeration contiene intervalos de tiempo que Video Indexer encontró que potencialmente tienen contenido para adultos. Si visualContentModeration está vacío, no hay contenido para adultos identificado.
Los vídeos que se encuentran para contener contenido para adultos o racy pueden estar disponibles solo para la vista privada. Los usuarios pueden enviar una solicitud de revisión humana del contenido, en cuyo caso el atributo IsAdult
contendrá el resultado de la revisión humana.
Nombre | Descripción |
---|---|
identificación | Identificador de moderación de contenido visual. |
adultScore | Puntuación para adultos (de content moderator). |
racyScore | Puntuación de tono (de moderación de contenido). |
Instancias | Lista de intervalos de tiempo en los que apareció esta moderación de contenido visual. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Obtener ayuda y soporte técnico
Puede ponerse en contacto con Media Services con preguntas o seguir nuestras actualizaciones mediante uno de los métodos siguientes:
- Q & A
-
stack Overflow. Etiquete preguntas con
azure-media-services
. - @MSFTAzureMedia o use @AzureSupport para solicitar soporte técnico.
- Abra una incidencia de soporte técnico a través de Azure Portal.