Dela via


Hämta taligenkänningsresultat

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (e.Result.Reason == ResultReason.RecognizingSpeech)
        {        
            Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
        }
    };

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognized händelse.

speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
    {
        if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
        {            
            Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
            Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
            Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
                        
            var detailedResults = e.Result.Best();
            if(detailedResults != null && detailedResults.Any())
            {
                // The first item in detailedResults corresponds to the recognized text.
                // This is not necessarily the item with the highest confidence number.
                var bestResults = detailedResults?.ToList()[0];
                Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
                    bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
                // You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
                Console.WriteLine($"\tWord-level timing:");
                Console.WriteLine($"\t\tWord | Offset | Duration");
                Console.WriteLine($"\t\t----- | ----- | ----- ");

                foreach (var word in bestResults.Words)
                {
                    Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
                }
            }
        }
    };

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
    {
        cout << "Recognizing:" << e.Result->Text << std::endl;
        cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
        cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
    });

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig->RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation Paket (Go) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
    fmt.Println("Offset in Ticks:", event.Result.Offset)
    fmt.Println("Duration in Ticks:", event.Result.Duration)
}

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.RequestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation | Ytterligare exempel på GitHub

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing.addEventListener((s, e) -> {
    System.out.println("RECOGNIZING: " + e.getResult().getText());
    System.out.println("Offset in Ticks: " + e.getResult().getOffset());
    System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation Paket (npm) | Ytterligare exempel på GitHub-bibliotekets källkod | |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

speechRecognizer.recognizing = function (s, e) {
    console.log("RECOGNIZING: " + e.result.text);
    console.log("Offset in Ticks: " + e.result.offset);
    console.log("Duration in Ticks: " + e.result.duration);
};

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speechConfig.requestWordLevelTimestamps();

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

[speechConfig requestWordLevelTimestamps];

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing händelse.

def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
    if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
        print("Recognized: {}".format(result.text))
        print("Offset in Ticks: {}".format(result.offset))
        print("Duration in Ticks: {}".format(result.duration))

Identifierad förskjutning och varaktighet

När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig egenskap enligt följande:

speech_config.request_word_level_timestamps()

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.

Talsynkronisering

Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.

Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.

  • Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från 0 (noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund.
  • Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.

Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.

Känna igen förskjutning och varaktighet

Du vill synkronisera bildtexter med ljudspåret, oavsett om det görs i realtid eller med en förinspelning. Recognizing Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing händelse levereras med en textuppskattning av det tal som har identifierats hittills.

Kör till exempel följande kommando för att hämta förskjutningen och varaktigheten för det identifierade talet:

spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed

@output.each.detailed Sedan argumentet angavs innehåller utdata följande kolumnrubriker:

audio.input.id  event   event.sessionid result.reason   result.latency  result.text     result.json

result.json I kolumnen hittar du information som innehåller förskjutning och varaktighet för Recognizing händelserna ochRecognized:

{
	"Id": "492574cd8555481a92c22f5ff757ef17",
	"RecognitionStatus": "Success",
	"DisplayText": "Welcome to applied Mathematics course 201.",
	"Offset": 1800000,
	"Duration": 30500000
}

Mer information finns i konfigurations- och utdataalternativen för Speech CLI-datalager.

Exempel på förskjutning och varaktighet

I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing och Recognized . Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing händelserna och Recognized eftersom slutresultatet kan vara annorlunda.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA Välkommen 17000000 5 000 000
ERKÄNNA välkommen till 17000000 6400000
ERKÄNNA välkommen till tillämpad matematik 17000000 13600000
ERKÄNNA välkommen till tillämpad matematik 17000000 17200000
ERKÄNNA välkommen till tillämpad matematikkurs 17000000 23700000
ERKÄNNA välkommen till tillämpad matematikkurs 2 17000000 26700000
ERKÄNNA välkommen till tillämpad matematikkurs 201 17000000 33400000
ERKÄND Välkommen till tillämpad matematikkurs 201. 17000000 34500000

Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).

Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.

Event Text Förskjutning (i fästingar) Varaktighet (i fästingar)
ERKÄNNA OK 71500000 3100000
ERKÄNNA OK nu 71500000 10300000
ERKÄNNA OK nu ska vi 71500000 14700000
ERKÄNNA OK nu ska vi komma igång 71500000 18500000
ERKÄND Okej, nu ska vi komma igång. 71500000 20600000

Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).

Nästa steg