Spraakherkenningsresultaten ophalen
Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.RequestWordLevelTimestamps();
Dit codefragment laat zien hoe u de offset en duur van een Recognized
gebeurtenis kunt ophalen.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (NuGet) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig->RequestWordLevelTimestamps();
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (Go) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.RequestWordLevelTimestamps();
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatie | Aanvullende voorbeelden op GitHub
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.requestWordLevelTimestamps();
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (npm) | Aanvullende voorbeelden in broncode van GitHub Library | |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speechConfig.requestWordLevelTimestamps();
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
[speechConfig requestWordLevelTimestamps];
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (download) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
[speechConfig requestWordLevelTimestamps];
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
Referentiedocumentatiepakket (PyPi) | Aanvullende voorbeelden op GitHub |
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Dit codefragment laat zien hoe u de offset en duur van een Recognizing
gebeurtenis kunt ophalen.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(e.result.text))
print("Offset in Ticks: {}".format(e.result.offset))
print("Duration in Ticks: {}".format(e.result.duration))
Herkende offset en duur
Zodra een uiting is herkend, kunt u de offset en duur van de herkende spraak ophalen. Met de Recognized
gebeurtenis kunt u ook de offset en duur per woord ophalen. Als u de offset en duur per woord wilt aanvragen, moet u eerst de bijbehorende SpeechConfig
eigenschap instellen, zoals hier wordt weergegeven:
speech_config.request_word_level_timestamps()
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).
In deze handleiding leert u hoe u spraakherkenningsresultaten kunt gebruiken.
Spraaksynchronisatie
Mogelijk wilt u transcripties synchroniseren met een audiospoor, ongeacht of dit in realtime of met een prerecord wordt gedaan.
De Speech-service retourneert de offset en duur van de herkende spraak.
- Verschuiving: de offset in de audiostroom die wordt herkend, uitgedrukt als duur. Verschuiving wordt gemeten in tikken, beginnend vanaf
0
(nul) maatstreepje, gekoppeld aan de eerste audio-byte die door de SDK wordt verwerkt. De offset begint bijvoorbeeld wanneer u herkenning start, omdat de SDK begint met het verwerken van de audiostream. Eén maatstreepje vertegenwoordigt honderd nanoseconden of één tien miljoenste van een seconde. - Duur: Duur van de uiting die wordt herkend. De duur van tikken omvat geen volg- of voorloopstilte stilte.
Het einde van één uiting wordt bepaald door te luisteren naar stilte aan het einde. U krijgt pas het uiteindelijke herkenningsresultaat als een uiting is voltooid. Het herkennen van gebeurtenissen levert tussenliggende resultaten die kunnen worden gewijzigd terwijl een audiostream wordt verwerkt. Herkende gebeurtenissen bieden de definitieve getranscribeerde tekst zodra de verwerking van een uiting is voltooid.
Verschuiving en duur herkennen
U wilt bijschriften synchroniseren met het audiospoor, ongeacht of dit in realtime wordt gedaan of met een prerecord. Met de Recognizing
gebeurtenis kunt u de verschuiving en duur van de spraak die wordt herkend ophalen. Verschuiving en duur per woord zijn niet beschikbaar terwijl de herkenning wordt uitgevoerd. Elke Recognizing
gebeurtenis wordt geleverd met een tekstuele schatting van de spraak die tot nu toe wordt herkend.
Voer bijvoorbeeld de volgende opdracht uit om de offset en duur van de herkende spraak op te halen:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Omdat het @output.each.detailed
argument is ingesteld, bevat de uitvoer de volgende kolomkoppen:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
In de result.json
kolom vindt u details met offset en duur voor de Recognizing
en Recognized
gebeurtenissen:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Zie de configuratie en uitvoeropties voor het Speech CLI-gegevensarchief voor meer informatie.
Voorbeeld van verschuiving en duur
In de volgende tabel ziet u mogelijke verschuiving en duur in maatstreepjes wanneer een spreker 'Welkom bij toegepaste wiskundecursus 201' zegt. In dit voorbeeld verandert de offset niet in de Recognizing
hele en Recognized
gebeurtenissen. Vertrouw echter niet op de offset om hetzelfde te blijven tussen de Recognizing
en Recognized
gebeurtenissen, omdat het uiteindelijke resultaat anders kan zijn.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | Welkom | 17000000 | 5.000.000 |
HERKENNEN | welkom bij | 17000000 | 6400000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 13600000 |
HERKENNEN | welkom bij toegepaste wiskunde | 17000000 | 17200000 |
HERKENNEN | welkom bij toegepaste wiskundecursus | 17000000 | 23700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 2 | 17000000 | 26700000 |
HERKENNEN | welkom bij toegepaste wiskundecursus 201 | 17000000 | 33400000 |
ERKEND | Welkom bij de toegepaste wiskundecursus 201. | 17000000 | 34500000 |
De totale duur van de eerste uiting was 3,45 seconden. Het werd herkend om 1,7 tot 5,15 seconden offset van het begin van de audiostream die wordt herkend (00:00:01.700 --> 00:00:05.150).
Als de luidspreker doorgaat met de tekst 'Laten we aan de slag gaan', wordt een nieuwe offset berekend vanaf het begin van de audiostream die wordt herkend, tot het begin van de nieuwe uiting. In de volgende tabel ziet u mogelijke offset en duur voor een uiting die twee seconden is gestart nadat de vorige uiting is beëindigd.
Gebeurtenis | Sms verzenden | Verschuiving (in tikken) | Duur (in maatstreepjes) |
---|---|---|---|
HERKENNEN | OK | 71500000 | 3100000 |
HERKENNEN | OK nu | 71500000 | 10300000 |
HERKENNEN | Ok, nu gaan we | 71500000 | 14700000 |
HERKENNEN | Laten we nu aan de slag gaan | 71500000 | 18500000 |
ERKEND | We gaan nu aan de slag. | 71500000 | 20600000 |
De totale duur van de tweede uiting was 2,06 seconden. Het werd herkend om 7,15 tot 9,21 seconden offset van het begin van de audiostream die wordt herkend (00:00:07.150 --> 00:00:09.210).