Hämta taligenkänningsresultat
Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speechConfig.RequestWordLevelTimestamps();
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognized
händelse.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speechConfig->RequestWordLevelTimestamps();
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Referensdokumentation Paket (Go) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speechConfig.RequestWordLevelTimestamps();
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Referensdokumentation | Ytterligare exempel på GitHub
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speechConfig.requestWordLevelTimestamps();
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Referensdokumentation Paket (npm) | Ytterligare exempel på GitHub-bibliotekets källkod | |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speechConfig.requestWordLevelTimestamps();
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
[speechConfig requestWordLevelTimestamps];
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Paket för referensdokumentation (nedladdning) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
[speechConfig requestWordLevelTimestamps];
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Det här kodfragmentet visar hur du hämtar förskjutningen och varaktigheten från en Recognizing
händelse.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Identifierad förskjutning och varaktighet
När ett yttrande har identifierats kan du få förskjutningen och varaktigheten för det identifierade talet. Recognized
Med händelsen kan du också få förskjutningen och varaktigheten per ord. Om du vill begära förskjutningen och varaktigheten per ord måste du först ange motsvarande SpeechConfig
egenskap enligt följande:
speech_config.request_word_level_timestamps()
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).
I den här instruktionsguiden lär du dig hur du kan använda taligenkänningsresultat.
Talsynkronisering
Du kanske vill synkronisera transkriptioner med ett ljudspår, oavsett om det görs i realtid eller med en förinspelning.
Speech-tjänsten returnerar förskjutningen och varaktigheten för det identifierade talet.
- Förskjutning: Förskjutningen till ljudströmmen som identifieras, uttryckt som varaktighet. Offset mäts i fästingar, med början från
0
(noll) tick, associerat med den första ljudbyte bearbetas av SDK. Till exempel börjar förskjutningen när du startar igenkänningen, eftersom det är då SDK:t börjar bearbeta ljudströmmen. En fästing representerar hundra nanosekunder eller en tiomiljondels sekund. - Varaktighet: Varaktighet för yttrandet som identifieras. Varaktigheten i fästingar inkluderar inte avslutande eller inledande tystnad.
Slutet på ett enda yttrande bestäms genom att lyssna efter tystnad i slutet. Du får inte det slutliga igenkänningsresultatet förrän ett yttrande har slutförts. Om du känner igen händelser får du mellanliggande resultat som kan komma att ändras medan en ljudström bearbetas. Identifierade händelser ger den sista transkriberade texten när bearbetningen av ett yttrande har slutförts.
Känna igen förskjutning och varaktighet
Du vill synkronisera bildtexter med ljudspåret, oavsett om det görs i realtid eller med en förinspelning. Recognizing
Med händelsen kan du få förskjutningen och varaktigheten för talet som identifieras. Förskjutning och varaktighet per ord är inte tillgängliga medan igenkänning pågår. Varje Recognizing
händelse levereras med en textuppskattning av det tal som har identifierats hittills.
Kör till exempel följande kommando för att hämta förskjutningen och varaktigheten för det identifierade talet:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
@output.each.detailed
Sedan argumentet angavs innehåller utdata följande kolumnrubriker:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
result.json
I kolumnen hittar du information som innehåller förskjutning och varaktighet för Recognizing
händelserna ochRecognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Mer information finns i konfigurations- och utdataalternativen för Speech CLI-datalager.
Exempel på förskjutning och varaktighet
I följande tabell visas potentiell förskjutning och varaktighet i fästingar när en talare säger "Välkommen till tillämpad matematikkurs 201". I det här exemplet ändras inte förskjutningen i händelserna Recognizing
och Recognized
. Förlita dig dock inte på att förskjutningen förblir densamma mellan Recognizing
händelserna och Recognized
eftersom slutresultatet kan vara annorlunda.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | Välkommen | 17000000 | 5 000 000 |
ERKÄNNA | välkommen till | 17000000 | 6400000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 13600000 |
ERKÄNNA | välkommen till tillämpad matematik | 17000000 | 17200000 |
ERKÄNNA | välkommen till tillämpad matematikkurs | 17000000 | 23700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 2 | 17000000 | 26700000 |
ERKÄNNA | välkommen till tillämpad matematikkurs 201 | 17000000 | 33400000 |
ERKÄND | Välkommen till tillämpad matematikkurs 201. | 17000000 | 34500000 |
Den totala varaktigheten för det första yttrandet var 3,45 sekunder. Den identifierades vid 1,7 till 5,15 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:01.700 --> 00:00:05.150).
Om talaren fortsätter att säga "Nu ska vi komma igång" beräknas en ny förskjutning från början av ljudströmmen som identifieras, till början av det nya yttrandet. I följande tabell visas potentiell förskjutning och varaktighet för ett yttrande som startade två sekunder efter att föregående yttrande avslutats.
Event | Text | Förskjutning (i fästingar) | Varaktighet (i fästingar) |
---|---|---|---|
ERKÄNNA | OK | 71500000 | 3100000 |
ERKÄNNA | OK nu | 71500000 | 10300000 |
ERKÄNNA | OK nu ska vi | 71500000 | 14700000 |
ERKÄNNA | OK nu ska vi komma igång | 71500000 | 18500000 |
ERKÄND | Okej, nu ska vi komma igång. | 71500000 | 20600000 |
Den totala varaktigheten för det andra yttrandet var 2,06 sekunder. Den identifierades vid 7,15 till 9,21 sekunders förskjutning från början av ljudströmmen som kändes igen (00:00:07.150 --> 00:00:09.210).