у меня есть данные:
{
"text": "some_text",
"start_time": 0.24,
"end_time": 7.4
},
{
"text": "some_text",
"start_time": 7.63,
"end_time": 15.76
},
{
"text": "some_text",
"start_time": 23.27,
"end_time": 38.569
},
{
"text": "some_text",
"start_time": 39.03,
"end_time": 40.05
},
мне нужно сделать синтез речи из них и я формирую:
<speak version="1.0" xml:lang="en-GB" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts">
<voice name="en-GB-SoniaNeural">
<break time="0.24s"/>
<mstts:audioduration value="7.16s"/>
<s>
some text
</s>
<break time="0.23s"/>
<mstts:audioduration value="8.13s"/>
<s>
some text
</s>
<break time="7.51s"/>
<mstts:audioduration value="15.299s"/>
<s>
some text
</s>
<break time="0.539s"/>
<mstts:audioduration value="1.02s"/>
<s>some text</s>
</voice>
</speak>
ssml документ для синтеза речи, но на выходе я получаю речь длительность в 44 секунды вместо 40.05
как мне сделать так чтобы предложения были с точность от и до секунды, текс я получаю из распознования речи, так что он соответствует временным меткам и длетельностей что в них прописанны,
вообще возмножно синтезировать речь точно с временными метками? если да, то как?