Compartir a través de


Obtención de resultados de reconocimiento de voz

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.RequestWordLevelTimestamps();

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognized.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig->RequestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (Go) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.RequestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.requestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (npm) | Ejemplos adicionales en GitHub | Código fuente de la biblioteca

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speechConfig.requestWordLevelTimestamps();

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

[speechConfig requestWordLevelTimestamps];

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

[speechConfig requestWordLevelTimestamps];

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Documentación de referencia | Paquete (PyPi) | Ejemplos adicionales en GitHub

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Desplazamiento y duración de eventos reconocidos

Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig correspondiente, como se muestra a continuación:

speech_config.request_word_level_timestamps()

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.

Sincronización de voz

Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.

El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.

  • Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic 0 (cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo.
  • Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.

El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.

Desplazamiento y duración de eventos de reconocimiento

Es posible que deba sincronizar los subtítulos con la pista de audio, ya sea en tiempo real o con una grabación previa. Mediante el evento Recognizing, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing incluirá una estimación textual de la voz reconocida hasta ese momento.

Por ejemplo, ejecute el siguiente comando para obtener el desplazamiento y la duración de la voz reconocida:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Dado que se estableció el argumento @output.each.detailed, la salida incluye los siguientes encabezados de columna:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

En la columna result.json, puede encontrar detalles que incluyen desplazamiento y duración de los eventos Recognizing y Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Para más información, consulte las opciones de configuración de almacén de datos y opciones de salida de la CLI de Voz.

Ejemplo de desplazamiento y duración

En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing y Recognized. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing y Recognized, ya que el resultado final podría diferir.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING bienvenido 17 000 000 5000000
RECOGNIZING Le damos la 17 000 000 6 400 000
RECOGNIZING Le damos la bienvenida al 17 000 000 13 600 000
RECOGNIZING Le damos la bienvenida al curso de 17 000 000 17 200 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas 17 000 000 23 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 2 17 000 000 26 700 000
RECOGNIZING Le damos la bienvenida al curso de matemáticas aplicadas 201 17 000 000 33 400 000
RECOGNIZED Le damos la bienvenida al curso de matemáticas aplicadas 201. 17 000 000 34 500 000

La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).

Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.

Evento Texto Desplazamiento (en tics) Duración (en tics)
RECOGNIZING Aceptar 71 500 000 3 100 000
RECOGNIZING Muy bien 71 500 000 10 300 000
RECOGNIZING Muy bien, ahora 71 500 000 14 700 000
RECOGNIZING Muy bien, ahora comencemos. 71 500 000 18 500 000
RECOGNIZED Muy bien, ahora comencemos. 71 500 000 20 600 000

La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).

Pasos siguientes