Latência de sintetização de voz mais reduzida com o SDK de Voz

Artigo
03/10/2025

Neste artigo, apresentamos as melhores práticas para reduzir a latência de síntese de texto para fala e trazer o melhor desempenho para seus usuários finais.

Normalmente, medimos a latência por first byte latency e finish latency, da seguinte forma:

Latência	Description	Chave da propriedade SpeechSynthesisResult
latência do primeiro byte	Indica o intervalo de tempo entre o início da tarefa de síntese e o recebimento do primeiro bloco de dados de áudio.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
latência de conclusão	Indica o intervalo de tempo entre o início da tarefa de síntese e o recebimento de todos os dados de áudio sintetizados.	SpeechServiceResponse_SynthesisFinishLatencyMs

O SDK de Fala coloca as durações de latência na coleção Properties do SpeechSynthesisResult. O código de exemplo a seguir mostra esses valores.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latência	Description	Chave da propriedade SpeechSynthesisResult
`first byte latency`	Indica o intervalo de tempo entre o início da síntese e o recebimento do primeiro bloco de áudio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o intervalo de tempo entre o início da síntese e todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no saco de propriedades do SpeechSynthesisResult. Consulte os seguintes códigos para obtê-los.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latência	Description	Chave da propriedade SpeechSynthesisResult
`first byte latency`	Indica o intervalo de tempo entre o início da síntese e o recebimento do primeiro bloco de áudio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o intervalo de tempo entre o início da síntese e todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no saco de propriedades do SpeechSynthesisResult. Consulte os seguintes códigos para obtê-los.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latência	Description	Chave da propriedade SpeechSynthesisResult
`first byte latency`	Indica o intervalo de tempo entre o início da síntese e o recebimento do primeiro bloco de áudio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica o intervalo de tempo entre o início da síntese e todo o áudio sintetizado é recebido.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no saco de propriedades do SpeechSynthesisResult. Consulte os seguintes códigos para obtê-los.

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latência	Description	Chave de propriedade SPXSpeechSynthesisResult
`first byte latency`	Indica o intervalo de tempo entre o início da síntese e o recebimento do primeiro bloco de áudio.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Indica o intervalo de tempo entre o início da síntese e todo o áudio sintetizado é recebido.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

O SDK de Fala mediu as latências e as colocou no saco de propriedades do SPXSpeechSynthesisResult. Consulte os seguintes códigos para obtê-los.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

A latência do primeiro byte é menor do que a latência de término na maioria dos casos. A latência do primeiro byte é independente do comprimento do texto, enquanto a latência de conclusão aumenta com o comprimento do texto.

Idealmente, queremos minimizar a latência experimentada pelo usuário (a latência antes que o usuário ouça o som) para um tempo de viagem de rota de rede mais a primeira latência de bloco de áudio do serviço de síntese de fala.

Transmissão

A transmissão em fluxo é fundamental para reduzir a latência. O código do cliente pode iniciar a reprodução quando o primeiro segmento de áudio for recebido. Num cenário de serviço, pode reencaminhar os segmentos de áudio imediatamente para os clientes em vez de esperar pelo áudio inteiro.

Você pode usar o PullAudioOutputStreamPushAudioOutputStream, , Synthesizing evento e AudioDataStream do SDK de Fala para habilitar o streaming.