Abrufen von Spracherkennungsergebnissen
Referenzdokumentation | Paket (NuGet) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speechConfig.RequestWordLevelTimestamps();
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognized
-Ereignis abrufen.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (NuGet) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speechConfig->RequestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (Go) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speechConfig.RequestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speechConfig.requestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (npm) | Zusätzliche Beispiele auf GitHub | Quellcode der Bibliothek
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speechConfig.requestWordLevelTimestamps();
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (Download) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
[speechConfig requestWordLevelTimestamps];
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (Download) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
[speechConfig requestWordLevelTimestamps];
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
Referenzdokumentation | Paket (PyPi) | Zusätzliche Beispiele auf GitHub
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Dieser Codeausschnitt zeigt, wie Sie den Offset und die Dauer von einem Recognizing
-Ereignis abrufen.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Erkannter Offset und erkannte Dauer
Sobald eine Äußerung erkannt wurde, können Sie den Offset und die Dauer der erkannten Sprache abrufen. Mit dem Recognized
-Ereignis können Sie auch den Offset und die Dauer pro Wort abrufen. Um den Offset und die Dauer pro Wort abzurufen, müssen Sie zuerst die entsprechende SpeechConfig
-Eigenschaft wie hier gezeigt festlegen:
speech_config.request_word_level_timestamps()
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).
In dieser Schrittanleitung erfahren Sie, wie Sie Spracherkennungsergebnisse verwenden können.
Sprachsynchronisierung
Es kann sinnvoll sein, Transkriptionen mit einer Audiospur zu synchronisieren, unabhängig davon, ob dies in Echtzeit oder mit einer Vorabaufzeichnung erfolgt.
Der Speech-Dienst gibt den Offset und die Dauer der erkannten Sprache zurück.
- Offset: Der im Audiostream erkannte Zeitversatz, der als Dauer ausgedrückt wird. Der Offset wird in Takten gemessen, beginnend mit dem ersten Takt
0
(null), der dem ersten vom SDK verarbeiteten Byte an Audiodaten zugeordnet ist. Der Offset beginnt z. B. beim Starten der Erkennung, da das SDK die Verarbeitung des Audiostreams startet. Ein einzelner Takt stellt hundert Nanosekunden oder ein Zehnmillionstel einer Sekunde dar. - Dauer: Dauer der Äußerung, die erkannt wird. Die Dauer in Takten umfasst nicht nachfolgende oder führende Stille.
Das Ende einer einzelnen Äußerung wird durch die Stille am Ende bestimmt. Sie erhalten das endgültige Erkennungsergebnis erst, wenn eine Äußerung abgeschlossen wurde. Das Erkennen von Ereignissen stellt Zwischenergebnisse bereit, die sich ändern können, während ein Audiostream verarbeitet wird. Erkannte Ereignisse stellen den endgültigen transkribierten Text bereit, nachdem die Verarbeitung einer Äußerung abgeschlossen ist.
Erkennen von Offset und Dauer
Es ist sinnvoll, Untertitel mit der Audiospur zu synchronisieren, gleich ob dies in Echtzeit oder für eine Vorabaufzeichnung erfolgt. Mit dem Recognizing
-Ereignis können Sie den Offset und die Dauer der erkannten Sprache abrufen. Offset und Dauer pro Wort sind während der Erkennung nicht verfügbar. Jedes Recognizing
-Ereignis enthält eine textbezogene Schätzung der bisher erkannten Sprache.
Führen Sie beispielsweise den folgenden Befehl aus, um den Offset und die Dauer der erkannten Sprache abzurufen:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Da das Argument @output.each.detailed
festgelegt wurde, enthält die Ausgabe die folgenden Spaltenüberschriften:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
In der Spalte result.json
finden Sie Details, die Offset und Dauer für die Ereignisse Recognizing
und Recognized
enthalten:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Weitere Informationen finden Sie in unter Konfigurationsoptionen für die Speech-Befehlszeilenschnittstelle.
Beispiel für Offset und Dauer
In der folgenden Tabelle sind der mögliche Offset und die Dauer in Takten dargestellt, wenn ein Sprecher „Welcome to Applied Mathematics course 201“ (Willkommen beim Kurs „Angewandte Mathematik 201“) sagt. In diesem Beispiel ändert sich der Offset während der Ereignisse Recognizing
und Recognized
nicht. Verlassen Sie sich jedoch nicht darauf, dass der Offset zwischen den Ereignissen Recognizing
und Recognized
gleich bleibt, da das Endergebnis anders sein könnte.
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | Willkommen | 17.000.000 | 5000000 |
RECOGNIZING | welcome to (Willkommen bei) | 17.000.000 | 6.400.000 |
RECOGNIZING | welcome to applied math (Willkommen bei angewandter Mathematik) | 17.000.000 | 13.600.000 |
RECOGNIZING | welcome to applied mathematics (Willkommen bei angewandter Mathematik) | 17.000.000 | 17.200.000 |
RECOGNIZING | welcome to applied mathematics course (Willkommen beim Kurs „Angewandte Mathematik“) | 17.000.000 | 23.700.000 |
RECOGNIZING | welcome to applied mathematics course 2 (Willkommen beim Kurs „Angewandte Mathematik 2“) | 17.000.000 | 26.700.000 |
RECOGNIZING | welcome to applied mathematics course 201 (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 33.400.000 |
RECOGNIZED | Welcome to applied Mathematics course 201. (Willkommen beim Kurs „Angewandte Mathematik 201“) | 17.000.000 | 34.500.000 |
Die Gesamtdauer der ersten Äußerung betrug 3,45 Sekunden. Sie wurde mit einem Offset von 1,7 bis 5,15 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:01.700 > 00:00:05.150).
Wenn der Sprecher weiterhin „Los geht's!“ sagt, wird ein neuer Offset vom Anfang des erkannten Audiodatenstroms bis zum Anfang der neuen Äußerung berechnet. Die folgende Tabelle zeigt den möglichen Offset und die mögliche Dauer für eine Äußerung, die zwei Sekunden nach Beendigung der vorherigen Äußerung begann:
Ereignis | Text | Offset (in Takten) | Dauer (in Takten) |
---|---|---|---|
RECOGNIZING | OK | 71.500.000 | 3.100.000 |
RECOGNIZING | OK now (OK, jetzt) | 71.500.000 | 10.300.000 |
RECOGNIZING | OK, now let's (OK, jetzt lassen Sie uns) | 71.500.000 | 14.700.000 |
RECOGNIZING | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 18.500.000 |
RECOGNIZED | OK, now let's get started. (OK, jetzt lassen Sie uns loslegen) | 71.500.000 | 20.600.000 |
Die Gesamtdauer der zweiten Äußerung betrug 2,06 Sekunden. Sie wurde mit einem Offset von 7,15 bis 9,21 Sekunden vom Anfang des erkannten Audiodatenstroms erkannt (00:00:07.150 > 00:00:09.210).