Получение результатов распознавания речи
Справочные примеры пакета документации | (NuGet) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
speechRecognizer.Recognizing += (object sender, SpeechRecognitionEventArgs e) =>
{
if (e.Result.Reason == ResultReason.RecognizingSpeech)
{
Console.WriteLine(String.Format ("RECOGNIZING: {0}", e.Result.Text));
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
}
};
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speechConfig.RequestWordLevelTimestamps();
В этом фрагменте кода показано, как получить смещение и длительность события Recognized
.
speechRecognizer.Recognized += (object sender, SpeechRecognitionEventArgs e) =>
{
if (ResultReason.RecognizedSpeech == e.Result.Reason && e.Result.Text.Length > 0)
{
Console.WriteLine($"RECOGNIZED: Text={e.Result.Text}");
Console.WriteLine(String.Format ("Offset in Ticks: {0}", e.Result.OffsetInTicks));
Console.WriteLine(String.Format ("Duration in Ticks: {0}", e.Result.Duration.Ticks));
var detailedResults = e.Result.Best();
if(detailedResults != null && detailedResults.Any())
{
// The first item in detailedResults corresponds to the recognized text.
// This is not necessarily the item with the highest confidence number.
var bestResults = detailedResults?.ToList()[0];
Console.WriteLine(String.Format("\tConfidence: {0}\n\tText: {1}\n\tLexicalForm: {2}\n\tNormalizedForm: {3}\n\tMaskedNormalizedForm: {4}",
bestResults.Confidence, bestResults.Text, bestResults.LexicalForm, bestResults.NormalizedForm, bestResults.MaskedNormalizedForm));
// You must set speechConfig.RequestWordLevelTimestamps() to get word-level timestamps.
Console.WriteLine($"\tWord-level timing:");
Console.WriteLine($"\t\tWord | Offset | Duration");
Console.WriteLine($"\t\t----- | ----- | ----- ");
foreach (var word in bestResults.Words)
{
Console.WriteLine($"\t\t{word.Word} | {word.Offset} | {word.Duration}");
}
}
}
};
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочные примеры пакета документации | (NuGet) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
speechRecognizer->Recognizing.Connect([](const SpeechRecognitionEventArgs& e)
{
cout << "Recognizing:" << e.Result->Text << std::endl;
cout << "Offset in Ticks:" << e.Result->Offset() << std::endl;
cout << "Duration in Ticks:" << e.Result->Duration() << std::endl;
});
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speechConfig->RequestWordLevelTimestamps();
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочные примеры пакета документации | (Go) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
defer event.Close()
fmt.Println("Recognizing:", event.Result.Text)
fmt.Println("Offset in Ticks:", event.Result.Offset)
fmt.Println("Duration in Ticks:", event.Result.Duration)
}
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speechConfig.RequestWordLevelTimestamps();
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочная документация | по Дополнительным примерам на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
speechRecognizer.recognizing.addEventListener((s, e) -> {
System.out.println("RECOGNIZING: " + e.getResult().getText());
System.out.println("Offset in Ticks: " + e.getResult().getOffset());
System.out.println("Duration in Ticks: " + e.getResult().getDuration());
});
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speechConfig.requestWordLevelTimestamps();
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочные примеры пакета документации | (npm) | Дополнительные примеры в исходном коде библиотеки GitHub |
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
speechRecognizer.recognizing = function (s, e) {
console.log("RECOGNIZING: " + e.result.text);
console.log("Offset in Ticks: " + e.result.offset);
console.log("Duration in Ticks: " + e.result.duration);
};
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speechConfig.requestWordLevelTimestamps();
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочный пакет документации | (скачивание) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
[speechConfig requestWordLevelTimestamps];
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочный пакет документации | (скачивание) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
[speechConfig requestWordLevelTimestamps];
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
Справочные примеры пакета документации | (PyPi) | Дополнительные примеры на GitHub
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
В этом фрагменте кода показано, как получить смещение и длительность события Recognizing
.
def recognizing_handler(e : speechsdk.SpeechRecognitionEventArgs) :
if speechsdk.ResultReason.RecognizingSpeech == e.result.reason and len(e.result.text) > 0 :
print("Recognized: {}".format(result.text))
print("Offset in Ticks: {}".format(result.offset))
print("Duration in Ticks: {}".format(result.duration))
Распознавание смещения и длительность
После распознавания речевых фрагментов можно получить смещение и длительность распознанной речи. С помощью события Recognized
можно также получить смещение и длительность для каждого слова. Чтобы запросить смещение и длительность каждого слова, сначала необходимо задать соответствующее свойство SpeechConfig
, как показано ниже:
speech_config.request_word_level_timestamps()
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).
В этом руководстве вы узнаете, как использовать результаты распознавания речи.
Синхронизация речи
Вы можете синхронизировать транскрибирование с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью.
Служба "Речь" возвращает смещение и длительность распознаваемой речи.
- Смещение: смещение в распознаваемом аудиопотоке, выражаемое в виде интервала времени. Смещение измеряется в тактах, начиная с
0
(нулевого) такта, связанного с первым звуковым байтом, обработанным пакетом SDK. Например, смещение начинается при запуске распознавания, так как это происходит, когда пакет SDK начинает обработку звукового потока. Один такт представляет собой 100 наносекунд (или одну десятимиллионную долю секунды). - Длительность: длительность распознаваемого речевого фрагмента. Длительность в тактах не включает в себя конечный или начальный период тишины.
Конец одного речевого фрагмента определяется путем прослушивания тишины в конце. Окончательный результат распознавания будет получен только после завершения распознавания речевого фрагмента. В ходе распознавания событий появляются промежуточные результаты, которые могут быть изменены во время обработки звукового потока. Распознанные события будут предоставлять окончательный транскрибированный текст после завершения обработки речевого фрагмента.
Распознавание смещения и длительности
Вы хотите синхронизировать субтитры с звуковой дорожкой, будь то это сделано в режиме реального времени или с предварительной записью. С помощью события Recognizing
можно получить смещение и длительность распознаваемой речи. Смещение и длительность для каждого слова недоступны во время распознавания. Каждое событие Recognizing
сопровождается текстовой оценкой речи, распознанной до текущего момента.
Например, выполните следующую команду, чтобы получить смещение и длительность распознанной речи:
spx recognize --file caption.this.mp4 --format any --output each file - @output.each.detailed
Поскольку был задан аргумент @output.each.detailed
, выходные данные включают следующие заголовки столбцов:
audio.input.id event event.sessionid result.reason result.latency result.text result.json
В столбце result.json
можно найти сведения, включающие смещение и длительность событий Recognizing
и Recognized
:
{
"Id": "492574cd8555481a92c22f5ff757ef17",
"RecognitionStatus": "Success",
"DisplayText": "Welcome to applied Mathematics course 201.",
"Offset": 1800000,
"Duration": 30500000
}
Дополнительные сведения см. в конфигурации хранилища данных и параметрах вывода интерфейса командной строки службы "Речь".
Пример смещения и длительности
В следующей таблице показано потенциальное смещение и длительность в тактах, когда докладчик произнесет "Добро пожаловать в курс прикладной математики 201". Для этого примера смещение на протяжении событий Recognizing
и Recognized
не изменяется. Однако не следует использовать смещение, чтобы выполнять одни и те же действия в событиях Recognizing
и Recognized
, так как конечный результат может отличаться.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | добро пожаловать | 17000000 | 5000000 |
РАСПОЗНАВАНИЕ | Добро пожаловать в | 17000000 | 6400000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную мат | 17000000 | 13600000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на прикладную математику | 17000000 | 17200000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики | 17000000 | 23700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 2 | 17000000 | 26700000 |
РАСПОЗНАВАНИЕ | Добро пожаловать на курс прикладной математики 201 | 17000000 | 33400000 |
РАСПОЗНАНО | Добро пожаловать на курс прикладной математики 201. | 17000000 | 34500000 |
Общая продолжительность первого речевого фрагмента составила 3,45 секунды. Он был распознан со смещением от 1,7 до 5,15 секунд с начала распознавания потока аудиоданных (00:00:01.700 --> 00:00:05.150).
Если динамик продолжает говорить "Давайте приступим", новое смещение вычисляется с начала распознаваемого потока аудиоданных до начала нового речевого фрагмента. В следующей таблице показаны возможное смещение и продолжительность высказывания, начатого через две секунды после завершения предыдущего речевого фрагмента.
Мероприятие | Текст | Смещение (в тактах) | Длительность (в тактах) |
---|---|---|---|
РАСПОЗНАВАНИЕ | ОК | 71500000 | 3100000 |
РАСПОЗНАВАНИЕ | Хорошо, теперь | 71500000 | 10300000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте | 71500000 | 14700000 |
РАСПОЗНАВАНИЕ | ОК теперь давайте приступим к работе | 71500000 | 18500000 |
РАСПОЗНАНО | Хорошо, теперь давайте начнем. | 71500000 | 20600000 |
Общая продолжительность первого речевого фрагмента составила 2,06 секунды. Он был распознан со смещением от 7,15 до 9,21 секунд с начала распознавания потока аудиоданных (00:00:07.150 --> 00:00:09.210).