Sdílet prostřednictvím


Získání výsledků rozpoznávání řeči

Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speechConfig.RequestWordLevelTimestamps();

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognized .

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Package (NuGet) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speechConfig->RequestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Package (Go) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speechConfig.RequestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speechConfig.requestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (npm) | Další ukázky ve zdrojovém kódu knihovny GitHub |

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speechConfig.requestWordLevelTimestamps();

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

[speechConfig requestWordLevelTimestamps];

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Balíček (stáhnout) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

[speechConfig requestWordLevelTimestamps];

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Referenční dokumentace | Package (PyPi) | Další ukázky na GitHubu

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Tento fragment kódu ukazuje, jak získat posun a dobu trvání události Recognizing .

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Rozpoznaný posun a doba trvání

Po rozpoznání promluvy můžete získat posun a dobu trvání rozpoznané řeči. S událostí Recognized můžete také získat posun a dobu trvání jednotlivých slov. Pokud chcete požádat o posun a dobu trvání na slovo, musíte nejprve nastavit odpovídající SpeechConfig vlastnost, jak je znázorněno zde:

speech_config.request_word_level_timestamps()

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

V tomto návodu se dozvíte, jak můžete používat výsledky rozpoznávání řeči.

Synchronizace řeči

Můžete chtít synchronizovat přepisy se zvukovou stopou, ať už se provádí v reálném čase, nebo s předzáznamem.

Služba Speech vrátí posun a dobu trvání rozpoznané řeči.

  • Posun: Posun do rozpoznané zvukového streamu vyjádřený jako doba trvání. Posun se měří v odškrtávkách počínaje 0 (nula) a je přidružený k prvnímu zvukovému bajtu zpracovanému sadou SDK. Například posun začíná při spuštění rozpoznávání, protože sada SDK začne zpracovávat zvukový stream. Jedno klíště představuje sto nanosekund nebo jednu desetimiliontou sekundu.
  • Doba trvání: Doba trvání rozpoznané promluvy. Doba trvání v ticks nezahrnuje koncové ani úvodní ticho.

Konec jedné promluvy je určen poslechem ticha na konci. Dokud promluva nedokončí, nedostanete konečný výsledek rozpoznávání. Rozpoznávání událostí poskytne průběžné výsledky, které se můžou během zpracování zvukového streamu změnit. Rozpoznané události po dokončení zpracování promluvy poskytnou konečný přepisovaný text.

Rozpoznávání posunu a doby trvání

Titulky budete chtít synchronizovat se zvukovou stopou, ať už v reálném čase, nebo s předzáznamem. Recognizing U události můžete získat posun a dobu trvání rozpoznané řeči. Posun a doba trvání na slovo nejsou k dispozici, zatímco probíhá rozpoznávání. Každá Recognizing událost má zatím rozpoznaný textový odhad řeči.

Spuštěním následujícího příkazu například získejte posun a dobu trvání rozpoznané řeči:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

Vzhledem k tomu, že byl @output.each.detailed argument nastaven, výstup obsahuje následující záhlaví sloupců:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json Ve sloupci najdete podrobnosti, které zahrnují posun a dobu trvání událostí Recognizing Recognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Další informace najdete v konfiguraci úložiště dat Rozhraní příkazového řádku služby Speech a možnostech výstupu.

Příklad posunu a doby trvání

Následující tabulka ukazuje potenciální posun a dobu trvání v klíště, když přednáší "Vítejte v použitém matematickém kurzu 201". V tomto příkladu se posun nezmění v průběhu událostí Recognizing a Recognized událostí. Nespoléhejte ale na posun, který by zůstal stejný mezi Recognizing událostmi a Recognized událostmi, protože konečný výsledek se může lišit.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ Vítejte 17000000 5000000
ROZPOZNÁNÍ Vítá vás 17000000 6400000
ROZPOZNÁNÍ Vítá vás použité matematiky 17000000 13600000
ROZPOZNÁNÍ Vítejte v aplikaci matematiky 17000000 17200000
ROZPOZNÁNÍ Vítejte na použitém matematickém kurzu 17000000 23700000
ROZPOZNÁNÍ Vítejte v kurzu 2 pro matematiku 17000000 26700000
ROZPOZNÁNÍ Vítejte v kurzu matematiky 201 17000000 33400000
ROZPOZNANÝ Vítejte v kurzu Matematika 201. 17000000 34500000

Celková doba trvání první promluvy byla 3,45 sekundy. Byl rozpoznán v rozmezí 1,7 až 5,15 sekund od začátku rozpoznaného zvukového streamu (00:00:01.700 --> 00:00:05.150).

Pokud mluvčí dál řekne "Pojďme začít", vypočítá se nový posun od začátku rozpoznaného zvukového streamu až po začátek nové promluvy. Následující tabulka ukazuje potenciální posun a dobu trvání promluvy, která začala dvě sekundy po ukončení předchozí promluvy.

Událost Text Posun (v odškrtávkách) Doba trvání (v ticks)
ROZPOZNÁNÍ OK 71500000 3100000
ROZPOZNÁNÍ OK teď 71500000 10300000
ROZPOZNÁNÍ OK, teď pojďme 71500000 14700000
ROZPOZNÁNÍ Teď pojďme začít. 71500000 18500000
ROZPOZNANÝ Dobře, pojďme začít. 71500000 20600000

Celková doba trvání druhé promluvy byla 2,06 sekund. Rozpoznal se při 7,15 až 9,21 sekund od začátku rozpoznaného zvukového streamu (00:00:07.150 --> 00:00:09.210).

Další kroky