Obtención de resultados de reconocimiento de voz
Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speechConfig.RequestWordLevelTimestamps();
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (NuGet) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speechConfig->RequestWordLevelTimestamps();
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (Go) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speechConfig.RequestWordLevelTimestamps();
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speechConfig.requestWordLevelTimestamps();
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (npm) | Ejemplos adicionales en GitHub | Código fuente de la biblioteca
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speechConfig.requestWordLevelTimestamps();
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
[speechConfig requestWordLevelTimestamps];
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (descarga) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
[speechConfig requestWordLevelTimestamps];
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
Documentación de referencia | Paquete (PyPi) | Ejemplos adicionales en GitHub
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Este fragmento de código muestra cómo obtener el desplazamiento y la duración de un evento Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Desplazamiento y duración de eventos reconocidos
Una vez que se haya reconocido una expresión, podrá obtener el desplazamiento y la duración de la voz reconocida. Mediante el evento Recognized
, también podrá obtener el desplazamiento y la duración por palabra. Para solicitar el desplazamiento y la duración por palabra, primero deberá establecer la propiedad SpeechConfig
correspondiente, como se muestra a continuación:
speech_config.request_word_level_timestamps()
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).
En esta guía paso a paso, obtendrá información sobre cómo usar los resultados del reconocimiento de voz.
Sincronización de voz
Es posible que deba sincronizar las transcripciones con una pista de audio, ya sea en tiempo real o mediante una grabación previa.
El servicio de voz devuelve el desplazamiento y la duración de la voz reconocida.
- Desplazamiento: es el desplazamiento en la secuencia de audio que se reconoce, expresado en forma de duración. El desplazamiento se mide en tics, empezando por el tic
0
(cero), que está asociado al primer byte de audio que procesa el SDK. Es decir, el desplazamiento comienza cuando se inicia el reconocimiento, ya que es cuando el SDK comienza a procesar la secuencia de audio. Un tic representa cien nanosegundos o una diezmillonésima parte de un segundo. - Duración: es la duración de la expresión que se reconoce. La duración en tics no incluye el silencio final ni el inicial.
El final de una unidad de expresión se determina si se escucha un silencio que indica su final. No obtendrá el resultado final del reconocimiento hasta que se haya completado una expresión. Los eventos de reconocimiento (Recognizing) proporcionarán resultados intermedios que estarán sujetos a cambios mientras se procese una secuencia de audio. Los eventos ya reconocidos (Recognized) proporcionarán el texto transcrito final una vez que se haya completado el procesamiento de una expresión.
Desplazamiento y duración de eventos de reconocimiento
Es posible que deba sincronizar los subtítulos con la pista de audio, ya sea en tiempo real o con una grabación previa. Mediante el evento Recognizing
, podrá obtener el desplazamiento y la duración de la voz que se va a reconocer. El desplazamiento y la duración por palabra no estarán disponibles mientras el reconocimiento esté en curso. Cada evento Recognizing
incluirá una estimación textual de la voz reconocida hasta ese momento.
Por ejemplo, ejecute el siguiente comando para obtener el desplazamiento y la duración de la voz reconocida:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Dado que se estableció el argumento @output.each.detailed
, la salida incluye los siguientes encabezados de columna:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
En la columna result.json
, puede encontrar detalles que incluyen desplazamiento y duración de los eventos Recognizing
y Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Para más información, consulte las opciones de configuración de almacén de datos y opciones de salida de la CLI de Voz.
Ejemplo de desplazamiento y duración
En la siguiente tabla se muestran el desplazamiento y la duración posibles, en tics, que se calculan cuando un orador dice: "Le damos la bienvenida al curso de matemáticas aplicadas 201." En este ejemplo, el desplazamiento no cambia nunca en los eventos Recognizing
y Recognized
. Sin embargo, no confíe en el desplazamiento será el mismo en los eventos Recognizing
y Recognized
, ya que el resultado final podría diferir.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | bienvenido | 17 000 000 | 5000000 |
RECOGNIZING | Le damos la | 17 000 000 | 6 400 000 |
RECOGNIZING | Le damos la bienvenida al | 17 000 000 | 13 600 000 |
RECOGNIZING | Le damos la bienvenida al curso de | 17 000 000 | 17 200 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas | 17 000 000 | 23 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 2 | 17 000 000 | 26 700 000 |
RECOGNIZING | Le damos la bienvenida al curso de matemáticas aplicadas 201 | 17 000 000 | 33 400 000 |
RECOGNIZED | Le damos la bienvenida al curso de matemáticas aplicadas 201. | 17 000 000 | 34 500 000 |
La duración total de la primera expresión fue de 3,45 segundos. Esta se reconoció en el desplazamiento a los 1,7 a 5,15 segundos del inicio del reconocimiento de voz (00:00:01.700 --> 00:00:05.150).
Si el hablante continúa diciendo "Comencemos", se calcula un nuevo desplazamiento desde el principio de la secuencia de audio en reconocimiento, hasta el inicio de la nueva expresión. En la siguiente tabla se muestra el posible desplazamiento y la duración de una expresión que se reconoció dos segundos después de finalizar la expresión anterior.
Evento | Texto | Desplazamiento (en tics) | Duración (en tics) |
---|---|---|---|
RECOGNIZING | Aceptar | 71 500 000 | 3 100 000 |
RECOGNIZING | Muy bien | 71 500 000 | 10 300 000 |
RECOGNIZING | Muy bien, ahora | 71 500 000 | 14 700 000 |
RECOGNIZING | Muy bien, ahora comencemos. | 71 500 000 | 18 500 000 |
RECOGNIZED | Muy bien, ahora comencemos. | 71 500 000 | 20 600 000 |
La duración total de la segunda expresión fue de 2,06 segundos. Esta se reconoció en el desplazamiento a los 7,15 a 9,21 segundos del inicio del reconocimiento de voz (00:00:07.150 --> 00:00:09.210).