Speaker Recognition

Artículo
07/19/2023

El reconocimiento del altavoz de Azure AI Services - Speech Service proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas. Speaker Recognition se usa para responder a la pregunta "¿quién habla?". Más información.

La voz tiene características únicas que se pueden asociar con una persona. Proporcionamos las API de verificación de altavoz y las API de identificación de altavoz para dos aplicaciones principales de las tecnologías de Speaker Recognition.

Verificación del hablante

La verificación del hablante puede ser dependiente del texto o independiente del texto. En la verificación dependiente del texto, los hablantes deben elegir la misma frase de contraseña para usarla durante las fases de inscripción y comprobación. La verificación del contenido de voz y la firma de voz facilita un escenario de verificación multifactor; La verificación independiente del texto significa que los hablantes pueden hablar en idioma cotidiano en las frases de inscripción y verificación.

Comprobación del hablante dependiente del texto

En la fase de inscripción del hablante, la voz del hablante se graba diciendo una frase de contraseña de un conjunto de frases predefinidas. Las características de voz se extraen de la grabación de audio para formar una firma de voz única mientras se reconoce la frase de contraseña elegida. Juntos, la firma de voz y la frase de contraseña se usarían para comprobar el hablante.

En la fase de comprobación, el identificador asociado al individuo que se va a comprobar se envía a la API de verificación del hablante. El servicio de verificación del hablante extrae las características de voz y la frase de contraseña de la grabación de voz de entrada. A continuación, compara las características de voz y la frase de contraseña con el perfil de inscripción del hablante correspondiente.

La respuesta devuelve "Accept" o "Reject" con una puntuación de similitud que va de 0 a 1. La respuesta "Accept" o "Reject" es un resultado que combina el resultado de verificación del hablante y el resultado del reconocimiento de voz, mientras que la puntuación de similitud solo mide la similitud de voz. Devuelvemos "Accept" cuando el resultado del reconocimiento de voz coincide con la frase de inscripción y la puntuación de similitud de voz es mayor o igual que 0,5. Sin embargo, el resultado debe determinarse en función del escenario y de otros factores de comprobación que se usan. Se recomienda experimentar con sus propios datos y determinar el umbral para invalidar las respuestas "Aceptar" o "Rechazar" según corresponda.

En la versión actual de la API de verificación del hablante dependiente del texto, proporcionamos 10 frases en inglés para que los hablantes elijan.

Voy a hacerle una oferta que no puede rechazar.
Houston hemos tenido un problema.
Mi voz es mi pasaporte verificarme.
El jugo de manzana sabe gracioso después de pasta de dientes.
Puede entrar sin su contraseña.
Ahora puede activar el sistema de seguridad.
Mi voz es más segura que las contraseñas.
Mi contraseña no es tu negocio.
Mi nombre es desconocido para ti.
Ser tú mismo todos los demás ya están tomados"

Puede crear sus propias frases de contraseña mediante el envío de solicitudes independientes a la API de verificación del hablante independiente del texto y a la API de conversión de voz en texto. Al combinar el resultado de la comprobación del hablante y el resultado del reconocimiento de voz, puede determinar la identidad del hablante.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito. La generación de frases aleatorias para que el hablante lea se considere eficaz para evitar ataques de reproducción.

Verificación del hablante independiente de texto

Speaker Verification también puede ser independiente del texto, lo que significa que no hay restricciones sobre lo que dice el altavoz en el audio.

En la fase de inscripción, las características de voz se extraen del audio de un hablante para formar una firma de voz única.

En la fase de comprobación, el audio y el identificador asociados a la persona que se va a comprobar se envían a la API de verificación del hablante. El servicio de verificación del hablante extrae las características de voz de la grabación de voz de entrada. A continuación, compara las características de voz con la firma de voz en el perfil de inscripción del hablante correspondiente.

La respuesta devuelve "Accept" o "Reject" con una puntuación de similitud que va de 0 a 1. La respuesta "Accept" se devuelve cuando la puntuación de similitud es mayor o igual que 0,5. Sin embargo, el resultado debe determinarse en función del escenario y de otros factores de comprobación que se usan. Se recomienda experimentar con sus propios datos y determinar el umbral para invalidar la respuesta "Aceptar" o "Rechazar" según corresponda.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.

Identificación del hablante

La identificación del hablante es la tarea de determinar la identidad de una voz desconocida entre un conjunto de oradores candidatos. Speaker Identification API devuelve una lista de "mejores coincidencias" en función de las puntuaciones de similitud con una lista proporcionada de identificadores. Speaker Identification API es independiente del texto, ya que no compara lo que se dijo en la inscripción y el reconocimiento.

Identificación del hablante independiente de texto

La inscripción para la identificación del hablante depende del texto, lo que significa que no hay restricciones con respecto a lo que el hablante dice en el audio. No se requiere ninguna frase de contraseña. En la fase de inscripción, se graba la voz del hablante y se extraen las características de voz para formar una firma de voz única.

En la fase de identificación, el servicio de identificación del hablante extrae las características de voz de la grabación de voz de entrada. A continuación, compara las características con respecto a las firmas de voz en los datos de inscripción de una lista especificada de hablantes (hasta 50 oradores candidatos en cada solicitud). La respuesta incluía un identificador identificado y cinco identificadores de clasificación superior con puntuaciones de similitud que van de 0 a 1. El identificador identificado se determina en función de la puntuación de similitud del mejor altavoz coincidente. Si ninguno de los hablantes candidatos devuelve una puntuación de similitud mayor o igual que 0,5, la respuesta devuelve una cadena de cero para representar "no se encuentra ninguna coincidencia". Sin embargo, el resultado debe determinarse en función del escenario y de otros factores que se usan. Se recomienda experimentar con los datos y determinar el umbral para invalidar la "coincidencia o ninguna coincidencia" predeterminada según corresponda.