Obter resultados de reconhecimento de fala - Serviço de fala - Azure AI services

Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speechConfig.RequestWordLevelTimestamps();

Este trecho de código mostra como obter o deslocamento e a duração de um Recognized evento.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (NuGet) | Exemplos adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speechConfig->RequestWordLevelTimestamps();

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (Go) | Amostras adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speechConfig.RequestWordLevelTimestamps();

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Documentação | de referência Exemplos adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speechConfig.requestWordLevelTimestamps();

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (npm) | Exemplos adicionais no código-fonte da Biblioteca GitHub |

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speechConfig.requestWordLevelTimestamps();

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

[speechConfig requestWordLevelTimestamps];

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (download) | Exemplos adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

[speechConfig requestWordLevelTimestamps];

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Pacote de documentação | de referência (PyPi) | Amostras adicionais no GitHub

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Este trecho de código mostra como obter o deslocamento e a duração de um Recognizing evento.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Compensação e duração reconhecidas

Uma vez que um enunciado tenha sido reconhecido, você pode obter o deslocamento e a duração da fala reconhecida. Com o Recognized evento, você também pode obter o deslocamento e a duração por palavra. Para solicitar o deslocamento e a duração por palavra, primeiro você deve definir a propriedade correspondente SpeechConfig conforme mostrado aqui:

speech_config.request_word_level_timestamps()

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Neste guia de instruções, você aprenderá sobre como usar os resultados do reconhecimento de fala.

Sincronização de voz

Você pode querer sincronizar transcrições com uma faixa de áudio, seja em tempo real ou com uma pré-gravação.

O serviço de Fala retorna o deslocamento e a duração da fala reconhecida.

Deslocamento: O deslocamento para o fluxo de áudio que está sendo reconhecido, expresso como duração. O deslocamento é medido em ticks, a partir de 0 (zero) tick, associado ao primeiro byte de áudio processado pelo SDK. Por exemplo, o deslocamento começa quando você inicia o reconhecimento, já que é quando o SDK começa a processar o fluxo de áudio. Um carrapato representa cem nanossegundos ou um décimo milionésimo de segundo.
Duração: Duração do enunciado que está sendo reconhecido. A duração em carrapatos não inclui silêncio à direita ou à esquerda.

O fim de um único enunciado é determinado pela escuta do silêncio no final. Você não obterá o resultado final do reconhecimento até que uma declaração seja concluída. O reconhecimento de eventos fornecerá resultados intermediários que estão sujeitos a alterações enquanto um fluxo de áudio está sendo processado. Os eventos reconhecidos fornecerão o texto final transcrito assim que o processamento de um enunciado for concluído.

Reconhecendo o deslocamento e a duração

Você vai querer sincronizar legendas com a faixa de áudio, seja em tempo real ou com uma pré-gravação. Com o Recognizing evento, você pode obter o deslocamento e a duração do discurso sendo reconhecido. O deslocamento e a duração por palavra não estão disponíveis enquanto o reconhecimento estiver em andamento. Cada Recognizing evento vem com uma estimativa textual do discurso reconhecido até agora.

Por exemplo, execute o seguinte comando para obter o deslocamento e a duração da fala reconhecida:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Como o @output.each.detailed argumento foi definido, a saída inclui os seguintes cabeçalhos de coluna:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json Na coluna, você pode encontrar detalhes que incluem deslocamento e duração para os Recognizing eventos e Recognized :

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Para obter mais informações, consulte as opções de configuração e saída do armazenamento de dados da CLI de fala.

Exemplo de deslocamento e duração

A tabela a seguir mostra o deslocamento potencial e a duração em ticks quando um orador diz "Bem-vindo ao curso de Matemática Aplicada 201". Neste exemplo, o deslocamento não muda ao longo dos Recognizing eventos e Recognized . No entanto, não conte com o offset para permanecer o mesmo entre os Recognizing e Recognized eventos, já que o resultado final pode ser diferente.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	Bem-vindo	17000000	5000000
RECONHECENDO	Bem-vindo à	17000000	6400000
RECONHECENDO	Bem-vindo à Matemática Aplicada	17000000	13600000
RECONHECENDO	Bem-vindo à matemática aplicada	17000000	17200000
RECONHECENDO	Bem-vindo ao curso de matemática aplicada	17000000	23700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 2	17000000	26700000
RECONHECENDO	Bem-vindo ao Curso de Matemática Aplicada 201	17000000	33400000
RECONHECIDO	Bem-vindo ao curso de Matemática Aplicada 201.	17000000	34500000

A duração total da primeira emissão foi de 3,45 segundos. Foi reconhecido em 1,7 a 5,15 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:01.700 --> 00:00:05.150).

Se o alto-falante continuar a dizer "Vamos começar", um novo deslocamento é calculado desde o início do fluxo de áudio que está sendo reconhecido até o início do novo enunciado. A tabela a seguir mostra o deslocamento potencial e a duração de um enunciado iniciado dois segundos após o término do enunciado anterior.

Evento	Texto	Deslocamento (em ticks)	Duração (em carrapatos)
RECONHECENDO	OK	71500000	3100000
RECONHECENDO	OK agora	71500000	10300000
RECONHECENDO	OK agora vamos	71500000	14700000
RECONHECENDO	OK agora vamos começar	71500000	18500000
RECONHECIDO	OK, agora vamos começar.	71500000	20600000

A duração total da segunda emissão foi de 2,06 segundos. Foi reconhecido em 7,15 a 9,21 segundos de deslocamento do início do fluxo de áudio sendo reconhecido (00:00:07.150 --> 00:00:09.210).

Partilhar via

Obtenha resultados de reconhecimento de fala

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Compensação e duração reconhecidas

Exemplo de deslocamento e duração

Sincronização de voz

Reconhecendo o deslocamento e a duração

Exemplo de deslocamento e duração

Próximos passos

Comentários

Recursos adicionais