Obtención de información sobre la transcripción, la traducción y la identificación del idioma de los medios
Transcripción de medios, traducción e identificación del idioma
La transcripción, la traducción y la identificación del idioma detectan, transcriben y traducen la voz en archivos multimedia en más de 50 idiomas.
Video Indexer (VI) de Azure AI procesa la voz en el archivo de audio para extraer la transcripción que luego se traduce en muchos idiomas. Al seleccionar traducir en un idioma específico, la transcripción y la información como palabras clave, temas, etiquetas o OCR se traducen en el idioma especificado. La transcripción se puede usar tal como está o combinarse con la información del hablante que asigna y asigna las transcripciones a los hablantes. Se pueden detectar varios altavoces en un archivo de audio. Se asigna un identificador a cada hablante y se muestra en su voz transcrita.
La identificación del idioma (LID) reconoce el idioma hablado dominante admitido en el archivo de vídeo. Para obtener más información, consulte Aplicación de LID.
La identificación de varios idiomas (MLID) reconoce automáticamente los idiomas hablados en distintos segmentos del archivo de audio y envía cada segmento para que se transcriba en los idiomas identificados. Al final de este proceso, todas las transcripciones se combinan en el mismo archivo. Para obtener más información, consulte Aplicación de MLID. La información resultante se genera en una lista clasificada en un archivo JSON que incluye el identificador, el idioma, el texto transcrito, la duración y la puntuación de confianza.
Al indexar archivos multimedia con varios altavoces, Video Indexer de Azure AI realiza la diarización del hablante que identifica a cada hablante de un vídeo y atributos cada línea transcrita a un hablante. A los hablantes se les asigna una identidad única, como Speaker #1 y Speaker #2. Esto permite la identificación de los hablantes durante las conversaciones y puede ser útil en varios escenarios, como conversaciones con pacientes médicos, interacciones de agente-cliente y procedimientos judiciales.
Casos de uso de transcripción, traducción e identificación de idioma de medios
- Para promover la accesibilidad, haga que el contenido esté disponible para las personas con discapacidades auditivas mediante Video Indexer de Azure AI para generar voz en transcripción y traducción de texto en varios idiomas.
- Mejora de la distribución de contenido a una audiencia diversa en diferentes regiones e idiomas mediante la entrega de contenido en varios idiomas mediante las funcionalidades de transcripción y traducción de Video Indexer de Azure AI.
- Mejora y mejora de la generación manual de subtítulos y subtítulos mediante las funcionalidades de transcripción y traducción de Video Indexer de Azure AI y mediante los subtítulos generados por Video Indexer de Azure AI en uno de los formatos admitidos.
- Con la identificación de idioma (LID) o la identificación de varios idiomas (MLID) para transcribir vídeos en idiomas desconocidos para permitir que Video Indexer de Azure AI identifique automáticamente los idiomas que aparecen en el vídeo y genere la transcripción en consecuencia.
Visualización del JSON de información con el portal web
Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.
- Seleccione la pestaña Biblioteca .
- Seleccione los medios con los que desea trabajar.
- Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
- Busque el par de claves descrito en la respuesta de ejemplo.
Uso de la API
- Use la solicitud Obtener índice de vídeo. Se recomienda pasar
&includeSummarizedInsights=false
. - Busque los pares de claves descritos en la respuesta de ejemplo.
Respuesta de ejemplo
Todos los idiomas detectados en el vídeo se encuentran en sourceLanauge y cada instancia de la sectin de transcripción incluye el idioma trascripto.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Importante
Es importante leer la información general de la nota de transparencia para todas las características vi. Cada información también tiene notas de transparencia propias:
Notas de transcripción, traducción e identificación del idioma
Cuando se usa de forma responsable y cuidadosa, Video Indexer de Azure AI es una herramienta valiosa para muchos sectores. Siempre debe respetar la privacidad y la seguridad de los demás, y cumplir con las regulaciones locales y globales. Es recomendable que:
- Considere cuidadosamente la precisión de los resultados, para promover datos más precisos, comprobar la calidad del audio, el audio de baja calidad podría afectar a la información detectada.
- Video Indexer no realiza el reconocimiento del hablante, por lo que a los hablantes no se les asigna un identificador entre varios archivos. No puede buscar un hablante individual en varios archivos o transcripciones.
- Los identificadores del hablante se asignan de forma aleatoria y solo se pueden usar para distinguir distintos hablantes en un solo archivo.
- Habla cruzada y voz superpuesta: cuando varios hablantes hablan simultáneamente o interrumpan entre sí, resulta difícil que el modelo distinga con precisión y asigne el texto correcto a los altavoces correspondientes.
- Superposición de hablantes: a veces, los hablantes pueden tener patrones de voz similares, acentos o usar vocabulario similar, lo que dificulta que el modelo se diferencie entre ellos.
- Audio ruidoso: la mala calidad de audio, el ruido de fondo o las grabaciones de baja calidad pueden dificultar la capacidad del modelo para identificar y transcribir correctamente los altavoces.
- Voz emocional: las variaciones emocionales en el habla, como gritos, gritos o emoción extrema, pueden afectar a la capacidad del modelo para diarizar con precisión los altavoces.
- Disfraces o suplantación del hablante: si un hablante intenta imitar o ocultar intencionadamente su voz, el modelo podría confundir al hablante.
- Identificación ambigua del hablante: algunos segmentos de voz podrían no tener suficientes características únicas para que el modelo pueda atribuir con confianza a un hablante específico.
- El audio que contiene idiomas distintos de los seleccionados genera resultados inesperados.
- La longitud mínima del segmento para detectar cada idioma es de 15 segundos.
- El desplazamiento de detección de idioma es de 3 segundos en promedio.
- Se espera que el discurso sea continuo. Las alternancias frecuentes entre lenguajes pueden afectar al rendimiento del modelo.
- La voz de hablantes no nativos podría afectar al rendimiento del modelo (por ejemplo, cuando los hablantes usan su primer idioma y cambian a otro idioma).
- El modelo está diseñado para reconocer voz conversacional espontánea con acústicas de audio razonables (no comandos de voz, canto, etc.).
- La creación y edición de proyectos no están disponibles para vídeos de varios idiomas.
- Los modelos de lenguaje personalizado no están disponibles al usar la detección de varios idiomas.
- No se admite la adición de palabras clave.
- La indicación de idioma no se incluye en el archivo de subtítulos exportados.
- La transcripción de actualización de la API no admite varios archivos de lenguaje.
- El modelo está diseñado para reconocer una voz conversacional espontánea (no comandos de voz, canto, etc.).
- Si Video Indexer de Azure AI no puede identificar el idioma con una confianza lo suficientemente alta (mayor que 0,6), el idioma de reserva es inglés.
Esta es una lista de idiomas admitidos.
Componentes de transcripción, traducción e identificación de idioma
Durante el procedimiento de transcripción, traducción e identificación del idioma, se procesa la voz en un archivo multimedia, como se indica a continuación:
Componente | Definición |
---|---|
Idioma de origen | El usuario carga el archivo de origen para la indexación y: : especifica el idioma de origen del vídeo. - Selecciona detección automática de un solo idioma (LID) para identificar el idioma del archivo. La salida se guarda por separado. - Selecciona detección automática de varios idiomas (MLID) para identificar varios idiomas en el archivo. La salida de cada idioma se guarda por separado. |
API de transcripción | El archivo de audio se envía a los servicios de Azure AI para obtener la salida transcrita y traducida. Si se especifica un idioma, se procesa en consecuencia. Si no se especifica ningún idioma, se ejecuta un proceso LID o MLID para identificar el idioma después del cual se procesa el archivo. |
Unificación de salida | Los archivos transcritos y traducidos se unifican en el mismo archivo. Los datos resultantes incluyen el identificador del hablante de cada oración extraída junto con su nivel de confianza. |
Valor de confianza | El nivel de confianza estimado de cada oración se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82. |