你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI 语音中有哪些新增功能？

项目
01/13/2025

Azure AI 语音会持续更新。为了让大家随时了解最新的开发成果，本文介绍了新版本和新功能。

发行说明

选择服务或资源

语音 SDK 1.42.0：2024 年 12 月发行版

新功能

Java：使用 FileLogger、MemoryLogger、EventLogger 和 SpxTrace 的类添加了诊断日志 API。
支持将会议参与者的 JSON 属性“details”发送到服务
Go：添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
JavaScript、Go：添加了公共属性 id Speech_SegmentationStrategy，用于确定口语短语何时结束以及何时应生成最终识别结果（包括语义分段）
JavaScript、Go：添加了公共属性 id Speech_SegmentationMaximumTimeMs，根据 Java、Python、C#、C++ 中的时间确定口语短语的结束

Bug 修复

如果未设置语音名称，则修复每次合成时嵌入的 TTS 语音（重新）加载的问题。
修复了在某些情况下使用 MeetingTranscriber 时的偏移计算问题。
修复了并行注册多个诊断事件侦听器时可能出现的死锁问题。
(JavaScript) 修复了音频结束时可能丢失 NoMatch 结果的问题。此修复还使语音结束时的行为与其他 SDK 语言保持一致，并可能导致不再引发某些空事件。
(JavaScript) 修复了结果 JSON 中的偏移量，以便与结果对象的偏移量保持一致。以前仅修复了结果对象的偏移属性以考虑服务重新连接。
Go 语言：修复了编译错误 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
修复了重新连接到服务时会议听录中的结果偏移。
修复了日志记录中的死锁问题。

示例

更新了 C# 示例，以使用 .NET 8.0。
Java 示例使用诊断日志 API 来演示新诊断日志类的用法。

2024 年 11 月版本

适用于 Visual Studio Code 的 Azure AI 语音工具包扩展

Azure AI 语音工具包扩展现已可供 Visual Studio Code 用户使用。它包含一系列语音快速入门和场景示例，只需单击即可轻松构建和运行。有关详细信息，请参阅 Visual Studio Code 市场中的 Azure AI 语音工具包。

文本转语音头像代码示例

我们向 Android 和 iOS 添加了文本转语音虚拟形象代码示例。这些示例演示了如何在移动应用程序中使用实时文本转语音虚拟形象。

语音 SDK 1.41.1：2024 年 10 月版本

新增功能

添加了对 Amazon Linux 2023 和 Azure Linux 3.0 的支持。
添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
添加了用于控制新短语分段策略的属性。

缺陷修复

修复了不完全支持 2024 年 8 月之后生成的关键字识别高级模型的问题。
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- 请注意，在 iOS 上使用 Swift 时，项目必须使用 MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip（下载网址 https://aka.ms/csspeech/iosbinaryembedded）或 MicrosoftCognitiveServicesSpeechEmbedded-iOS Pod（包含高级模型支持）。
修复了 C# 中与字符串使用情况相关的内存泄漏。
修复了 Objective-C 和 Swift 中无法从 SPXConversationTranscriptionResult 获取 SPXAutoDetectSourceLanguageResult 的问题。
修复了将 Microsoft Audio Stack 用于识别时偶尔出现的崩溃问题。
修复了 Python 中的类型提示。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
修复了在使用自定义终结点时无法提取 TTS 语音列表的问题。
修复了使用短名称指定语音时，每次朗读请求都会重新初始化嵌入式 TTS 的问题。
修复了 RecognizeOnce 音频最大持续时间的 API 参考文档。
修复了在 JavaScript 中处理任意采样率时出现的错误
- 感谢 rseanhall 对此做出的贡献。
修复了在 JavaScript 中计算音频偏移量时出现的错误
- 感谢 motamed 对此做出的贡献。

重大更改

Windows ARM 32 位上的关键字识别支持已删除，因为此平台所需的 ONNX 运行时不可用。

语音 SDK 1.4.0：2024 年 8 月版

注意

语音 SDK 版本 1.39.0 是一个内部版本，没有丢失。

新功能

在语音识别中增加了对 G.722 压缩音频流式处理的支持。
在语音合成中的输入文本流式处理中增加了对音调、速率和音量设置的支持。
通过在语音合成中引入 PersonalVoiceSynthesisRequest 增加了对个人语音输入文本流式处理的支持。此 API 为预览版，在未来版本中可能会发生变化。
增加了在使用 ConversationTranscriber 时对中间结果进行分割聚类的支持。
由于 CentOS 7 终止服务且 RHEL 7 维护支持 2 结束，删除了 CentOS/RHEL 7 支持。
使用嵌入式语音模型现在需要模型许可证而不是模型密钥。如果你是现有的嵌入式语音客户，想要进行升级，请联系 Microsoft 的支持人员以获取有关模型更新的详细信息。

Bug 修复

使用 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR 标志为 Windows 生成语音 SDK 二进制文件，来表明已缓解 Visual C++ 运行时问题：升级到 VS 2022 版本 17.10.0 后 std::mutex::lock 发生访问冲突 - 开发者社区 (visualstudio.com)。如果使用语音 SDK 的 Windows C++ 应用程序的代码使用 std::mutex，则这些应用程序可能需要应用相同的生成配置标志（请参阅链接问题中的详细信息）。
已修复 OpenSSL 3.x 检测在 Linux arm64 上不起作用的问题 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420)。
已修复部署 UWP 应用时，MAS NuGet 包中的库和模型不会复制到部署位置的问题。
已修复 Android 包中的内容提供程序冲突 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463)。
已修复后处理选项不适用于中间语音识别结果的问题。
已修复有关特定于分发的运行时标识符的 .NET 8 警告 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244)。

示例

已将嵌入式语音示例更新为使用模型许可证而不是密钥。

语音 SDK 1.38.0：2024 年 6 月版本

新功能

升级了语音 SDK Linux 平台要求：
- 新的最低基线为 Ubuntu 20.04 LTS，或与 glibc 2.31 或更高版本兼容。
- 根据 Ubuntu 20.04 平台支持移除了适用于 Linux x86 的二进制文件。
- 请注意，RHEL/CentOS 7 仍然受支持，直到 6 月 30 日（CentOS 7 终止服务且 RHEL 7 维护支持 2 结束）。适用于它们的二进制文件将在语音 SDK 1.39.0 版本中移除。
在 Linux 上添加了对 OpenSSL 3 的支持。
添加了支持使用语音合成器生成 g722-16khz-64kbps 音频输出格式的功能。
添加了支持使用语音合成器通过连接对象发送消息的功能。
在 Objective-C 和 Swift 中添加了 Start/StopKeywordRecognition API。
添加了用于选择自定义翻译模型类别的 API。
更新了与语音合成器配合使用时的 GStreamer 用法。

Bug 修复

修复了 Start/StopKeywordRecognition 期间出现的“Websocket 消息大小不能超过 65536 字节”错误。
修复了语音合成期间的 Python 分段错误。

示例

已将 C# 示例更新为默认使用 .NET 6.0。

语音 SDK 1.37.0：2024 年 4 月发布

新功能

在语音合成中添加对输入文本流式处理的支持。
将默认语音合成语音更改为 en-US-AvaMultilingualNeural。
更新 Android 版本以使用 OpenSSL 3.x。

缺陷修复

修复使用 MAS 时在 SpeechRecognizer 释放过程中偶尔出现 JVM 崩溃的问题。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
改进对 Linux 上默认音频设备的检测。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

示例

更新了新功能。

语音 SDK 1.36.0：2024 年 3 月版

新功能

使用 AutoDetectSourceLanguageConfig::FromOpenRange() 在 v2 终结点上添加对多语言翻译中语言标识的支持。

缺陷修复

修复了在 SynthesisStarted 事件期间调用 Stop 时未触发的 SynthesisCanceled 事件。
修复了嵌入式语音合成中的干扰问题。
修复了并行运行多个识别器时嵌入式语音识别中的崩溃问题。
修复了 v1/v2 终结点上的短语检测模式设置问题。
修复了 Microsoft Audio Stack 的各种问题。

示例

更新了新功能。

语音 SDK 1.35.0：2024 年 2 月版本

新功能

将默认文本语音转换语音从 en-US-JennyMultilingualNeural 更改为 en-US-AvaNeural。
使用详细的输出格式支持嵌入式语音翻译结果中的字词级详细信息。

缺陷修复

修复 Python 中的 AudioDataStream 位置 Getter API。
使用 v2 终结点修复语音翻译，而无需语言检测。
修复嵌入式文本转语音中的随机崩溃和重复单词边界事件。
返回 WebSocket 连接上内部服务器错误的正确取消错误代码。
修复将 MAS 与 C# 一起使用时加载 FPIEProcessor.dll 库失败的问题。

示例

嵌入式识别示例的次要格式设置更新。

语音 SDK 1.34.1：2024 年 1 月发布版

中断性变更

仅 bug 修复

新增功能

仅 bug 修复

Bug 修复

修复了 1.34.0 中引入的回归问题，即使用了错误的区域设置信息为多个中国区域的用户构造了服务终结点 URL。

语音 1.34.0：2023 年 11 月版本

中断性变更

SpeechRecognizer 已更新为默认情况下（即未显式指定 URL 时）使用新的终结点，对于大多数属性，该终结点不再支持查询字符串参数。请使用相应的 API 函数，而不是直接使用 ServicePropertyChannel.UriQueryParameter 设置查询字符串参数。

新功能

与 .NET 8 兼容（针对 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 进行了修复，除了有关 centos7-x64 的警告之外）
支持嵌入式语音性能指标，这些指标可用于评估设备运行嵌入式语音的功能。
支持嵌入式多语言翻译中的源语言标识。
支持在预览版中发布的适用于 iOS 和 Swift/Objective-C 的嵌入式语音转文本、文本转语音和翻译。
MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod 中提供了嵌入式支持。

Bug 修复

修复了 iOS SDK 二进制大小增长 2 倍的问题 #2113：Azure-Samples/cognitive-services-speech-sdk (github.com)
修复了无法从 Azure 语音转文本 API 获取单词级时间戳的问题 #2156：Azure-Samples/cognitive-services-speech-sdk (github.com)
修复了 DialogServiceConnector 销毁阶段以正确将事件断开连接。此问题过去偶尔会导致崩溃。
修复了当使用 MAS 时在创建识别器过程中出现的异常。
适用于 Windows UWP x64 和 Arm64 的 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet 包中的 FPIEProcessor.dll 依赖于原生 C++ 的 VC 运行时库。通过对依赖项进行更新以更正 VC 运行时库（针对 UWP），此问题已得到纠正。
针对 [MAS] 修复了当使用 MAS 时反复调用 recognizeOnceAsync 会导致 SPXERR_ALREADY_INITIALIZED 的问题 #2124：Azure-Samples/cognitive-services-speech-sdk (github.com)
修复了使用短语列表时嵌入式语音识别崩溃的问题。

示例

用于语音转文本、文本转语音和翻译的嵌入式 iOS 示例。

语音 CLI 1.34.0：2023 年 11 月版本

新增功能

合成语音时支持字边界事件输出。

Bug 修复

将 JMESPath 依赖项更新到了最新版本，改进了字符串评估

语音 SDK 1.33.0：2023 年 10 月版本

中断性变更通知

在包配置文件中使用 MAS 的应用程序现在需要包含为 Microsoft Audio Stack (MAS) 添加的新 NuGet 包。

新增功能

添加了新的 NuGet 包 Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg，该包改进了使用 Microsoft Audio Stack 时的回声取消性能
发音评估：添加了对韵律和内容评估的支持，可以从韵律、词汇、语法和主题等方面来评估口语。

Bug 修复

修复了关键字识别结果偏移，以便从一开始就正确匹配输入音频流。此修补程序适用于独立关键字识别和关键字触发的语音识别。
修复了合成器 stopSpeaking 未立即返回的问题：SPXSpeechSynthesizer stopSpeaking() 方法在 iOS 17 上无法立即返回 - 问题 #2081
修复了 Swift 模块上的 Mac Catalyst 导入问题，在 Apple Silicon 上支持 Mac Catalyst。问题 #1948
JS：AudioWorkletNode 模块加载现在使用受信任的 URL，包含 CDN 浏览器回退。
JS：打包的库文件现在面向 ES6 JS，移除了对 ES5 JS 的支持。
JS：针对 v2 终结点的转换场景的中间事件已得到正确处理
JS：TranslationRecognitionEventArgs 的语言属性现在已设置为 translation.hypothesis 事件。
语音合成：SynthesisCompleted 事件保证在发生所有元数据事件后发出，因此可用于指示事件结束。如何检测何时完全收到视素？问题 #2093 Azure-Samples/cognitive-services-speech-sdk

示例

添加了示例来演示使用 Python 的 MULAW 流式处理
修复了语音转文本 NAudio 示例

语音 CLI 1.33.0：2023 年 10 月版本

新增功能

合成语音时支持字边界事件输出。

Bug 修复

语音 SDK 1.32.1：2023 年 9 月版本

Bug 修复

包含 OpenSSL1.1.1v 的最新安全修补程序的 Android 包更新
JS–添加了 WebWorkerLoadType 属性，以允许绕过超时工作器的数据 URL 加载
JS - 修复对话翻译在 10 分钟后断开连接的问题
JS - 对话中的对话翻译身份验证令牌现在会传播到翻译服务连接

示例

使用 Swift API 进行对话听录

语音 SDK 1.31.0：2023 年 8 月版

新功能

语音 SDK 1.31.0 公共预览版支持实时话者分离。此功能在以下 SDK 中可用：C#、C++、Java、JavaScript、Python 和 Objective-C/Swift。
通过音频播放同步语音合成文字边界和唇形活动

中断性变更

以前的“对话听录”方案重命名为“会议听录”。例如，使用 MeetingTranscriber 而不是 ConversationTranscriber，使用 CreateMeetingAsync 而不是 CreateConversationAsync。尽管 SDK 对象和方法的名称已更改，但重命名操作不会更改功能本身。使用会议听录对象来听录具有用户配置文件和语音签名的会议。有关详细信息，请参阅会议听录。 “对话翻译”对象和方法不受这些更改的影响。你仍然可以将 ConversationTranslator 对象及其方法用于会议翻译方案。

对于实时话者分离，引入了一个新的 ConversationTranscriber 对象。新的“对话听录”对象模型和调用模式类似于对 SpeechRecognizer 对象的连续识别。主要区别在于， ConversationTranscriber 对象设计为用于要区分多个说话人的对话方案（话者分离）。用户配置文件和语音签名不适用。有关详细信息，请参阅实时话者分离快速入门。

此表显示了用于实时话者分离和会议听录的旧对象和新对象名称。方案名称在第一列中，旧对象名称在第二列中，新对象名称在第三列中。

方案名称	旧对象名称	新对象名称
实时分割	不可用	`ConversationTranscriber`
会议听录	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ 、Participant、ParticipantChangedReason 和 User 对象同时适用于会议听录和会议翻译方案。

²Meeting 对象是新的，与 MeetingTranscriber 对象一起使用。

Bug 修复

修复了支持的最低 macOS 版本 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
修复了发音评估 bug：
- 解决了音素准确性分数问题，确保它们现在仅准确反映特定的发音错误音素。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 解决了发音评估功能错误地将完全正确的发音识别为错误的问题，尤其是在单词可能有多个有效发音的情况下。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

示例

CSharp
- 新 C# 对话听录快速入门
- 新 C# 会议听录快速入门
JavaScript

语音 SDK 1.30.0：2023 年 7 月版本

新功能

C++、C#、Java - 在嵌入式语音识别的详细结果中增加了对 DisplayWords 的支持。
Objective-C/Swift - 在 Objective-C/Swift 中增加了对 ConnectionMessageReceived 事件的支持。
Objective-C/Swift - 改进了适用于 iOS 的关键字辨识模型。此更改增加了某些包含 iOS 二进制文件（如 NuGet、XCFramework）的包的大小。我们正在努力减小未来版本的大小。

Bug 修复

修复了客户报告的将语音识别器与 PhraseListGrammar 配合使用时内存泄漏的问题（GitHub 问题）。
修复了文本转语音开放连接 API 中的死锁。

示例

有关如何在自己的应用程序中指定学习语言的新发音评估示例
- C#：请参阅示例代码。
- C++：请参阅示例代码。
- JavaScript：请参阅示例代码。
- Objective-C：请参阅示例代码。
- Python：请参阅示例代码。
- Swift：请参阅示例代码。

语音 SDK 1.29.0：2023 年 6 月版本

新功能

C++、C#、Java - 嵌入式语音翻译 API 预览版。现在，无需云连接即可进行语音翻译！
JavaScript - 语音翻译现已启用连续语言识别 (LID)。
JavaScript - 用于将 LocaleName 属性添加到 VoiceInfo 类的社区贡献。感谢 GitHub 用户 shivsarthak 的拉取请求。
C++、C#、Java - 添加了对从 16kHz 到 48kHz 采样率的嵌入式文本转语音输出重新采样的支持。
添加了对采用简单模式匹配的意向识别器中的 hi-IN 区域设置的支持。

Bug 修复

修复了在对象销毁期间由语音识别器中的争用条件导致的崩溃，如某些 Android 测试中所示
修复了采用简单模式匹配器的意向识别器中可能存在的死锁

示例

新的嵌入式语音翻译示例

语音 SDK 1.28.0：2023 年 5 月版本

重大更改

JavaScript SDK：删除了联机证书状态协议 (OCSP)。这使客户端能够更好地符合证书处理的浏览器和 Node 标准。版本 1.28 和更高版本将不再包含我们的自定义 OCSP 模块。

新功能

当语句末尾出现沉默超时时，嵌入式语音识别现在会返回 NoMatchReason::EndSilenceTimeout。这与使用实时语音服务进行识别时的行为匹配。
JavaScript SDK：使用 PropertyId 枚举值时设置 SpeechTranslationConfig 的属性。

Bug 修复

Windows 上的 C# - 修复 Windows 音频扩展中潜在的争用条件/死锁。在既快速处理音频渲染器又使用合成器方法停止说话的场景中，基础事件不会通过停止重置，并且可能导致渲染器对象永远不会被处理，同时它可能持有全局锁以进行处理，从而冻结 dotnet GC 线程。

示例

添加了 MAUI 的嵌入式语音示例。
更新了 Android Java 的嵌入式语音示例，以包含文本转语音。

语音 SDK 1.27.0：2023 年 4 月发布

关于即将进行的更改的通知

我们计划在下一个 JavaScript SDK 版本中删除联机证书状态协议 (OCSP)。这使客户端能够更好地符合证书处理的浏览器和 Node 标准。版本 1.27 是包含我们的自定义 OCSP 模块的最后一个版本。

新功能

JavaScript – 添加了对来自浏览器的麦克风输入的支持，以及说话人识别和验证。
嵌入式语音识别 - 更新了对 PropertyId::Speech_SegmentationSilenceTimeoutMs 设置的支持。

Bug 修复

常规 - 服务重新连接逻辑中的可靠性更新（除 JavaScript 之外的所有编程语言）。
常规 - 修复了 Windows 上的字符串转换泄漏内存（除 JavaScript 外的所有相关编程语言）。
嵌入式语音识别 - 修复了使用某些语法列表条目时法语语音识别的故障。
源代码文档 - 更正了与服务上的音频日志记录相关的 SDK 参考文档注释。
意向识别 - 修复了与列表实体相关的模式匹配程序优先级。

示例

正确处理 C# 对话听录 (CTS) 示例中的身份验证失败。
添加了 Python、JavaScript、Objective-C 和 Swift 的流式发音评估示例。

语音 SDK 1.26.0：2023 年 3 月发布

重大更改

以下包中的所有 iOS 目标都已禁用 Bitcode：带有 xcframework 的 Cocoapod、NuGet（用于 Xamarin 和 MAUI）和 Unity。出现这一更改的原因是 Apple 从 Xcode 14 开始不再支持 Bitcode。此更改还意味着，如果使用的是 Xcode 13 版本，或者已使用语音 SDK 在应用程序上显式启用了 Bitcode，则可能会遇到错误，指示“框架不得包含 Bitcode，必须重新生成”。要解决此问题，请确保目标已禁用 Bitcode。
在此版本中，最低 iOS 部署目标已升级到 11.0，这意味着不再支持 armv7 HW。

新功能

嵌入式（设备上）语音识别现在支持 8 和 16 kHz 采样率输入音频（每个采样 16 位，单声道 PCM）。
语音合成现在会在结果中报告连接、网络和服务延迟，以帮助优化端到端延迟。
使用简单模式匹配进行意向识别的新关键规则。要匹配的字符字节较多的模式匹配将胜过字符字节数较少的模式匹配。示例：模式“选择右上角的 {something}”将胜过“选择 {something}”

缺陷修复

语音合成：修复了表情符号在字边界事件中不正确这一 bug。
使用对话语言理解 (CLU) 进行意向识别：
- CLU 业务流程协调程序工作流中的意向现在正确显示。
- JSON 结果现在可通过属性 ID LanguageUnderstandingServiceResponse_JsonResult 获得。
使用关键字激活进行语音识别：修复了关键字识别后缺少约 150 毫秒音频的问题。
修复了客户报告的语音 SDK NuGet iOS MAUI 发布版本问题（GitHub 问题）

示例

修复了客户报告的 Swift iOS 示例问题（GitHub 问题）

语音 SDK 1.25.0：2023 年 1 月发布版

重大更改

语言识别（预览版）API 已得到简化。如果更新到语音 SDK 1.25 并看到生成中断，请访问语言识别页面以了解新属性 SpeechServiceConnection_LanguageIdMode。这个单一属性取代了之前的两个属性（SpeechServiceConnection_SingleLanguageIdPriority 和 SpeechServiceConnection_ContinuousLanguageIdPriority）。在最近的模型改进之后，不再需要在低延迟和高准确度之间进行优先排序。现在，你只需在进行连续语音识别或翻译时，选择是运行启动时语言识别还是连续语言识别即可。

新增功能

C#/C++/Java：嵌入式语音 SDK 现已在封闭式公共预览版下发布。请参阅嵌入式语音（预览版）文档。现在，当云连接出现断续或不可用时，可以在设备上进行语音转文本和文本转语音操作。在 Android、Linux、macOS 和 Windows 平台上受支持
C# MAUI：在语音 SDK NuGet 中添加了对 iOS 和 Mac Catalyst 目标的支持（客户问题）
Unity：Android x86_64 体系结构已添加到 Unity 包（客户问题）
Go：
- 为语音识别添加了 ALAW/MULAW 直接流式处理支持（客户问题）
- 添加了对 PhraseListGrammar 的支持。感谢 GitHub 用户 czkoko 的社区贡献！
C#/C++：意向识别器现在支持 C++ 和 C# 中的对话语言理解模型，在 Microsoft 服务上进行编排

Bug 修复

修复尝试停止 KeywordRecognizer 时在其中出现的偶尔挂起的问题
Python：
- 修复在设置 PronunciationAssessmentGranularity.FullText 时获取发音评估结果的问题（客户问题）
- 修复获取语音合成声音时男性声音的性别属性未被检索的问题
JavaScript
- 修复解析某些在 iOS 设备上录制的 WAV 文件的问题（客户问题）
- JS SDK 现在无需使用 npm-force-resolutions 即可进行生成（客户问题）
- 在使用通过 SpeechConfig.fromEndpoint() 创建的 speechConfig 实例时，对话翻译器现在可以正确设置服务终结点

示例

添加了展示如何使用嵌入式语音的示例
为 MAUI 添加了语音转文本示例

请参阅语音 SDK 示例存储库。

语音 SDK 1.24.2：2022 年 11 月版本

新增功能

没有新功能，只有嵌入式引擎修补程序以支持新的模型文件。

Bug 修复

所有编程语言
- 修复了嵌入式语音识别模型加密的相关问题。

语音 SDK 1.24.1：2022 年 11 月版本

新增功能

发布了嵌入式语音预览版的程序包。有关详细信息，请参阅https://aka.ms/embedded-speech。

Bug 修复

所有编程语言
- 修复了语音字体不受支持时的嵌入式 TTS 崩溃问题
- 修复了 stopSpeaking() 在 Linux 上无法停止播放的问题 (#1686)
JavaScript SDK
- 修复了对话转录器在音频门控方面的退化。
Java
- 临时将更新的 POM 和 Javadocs 文件发布到了 Maven Central，使文档管道能够更新联机参考文档。
Python
- 修复了 Python speak_text(ssml) 返回 void 的退化问题。

语音 SDK 1.24.0：2022 年 10 月版本

新增功能

所有编程语言：已将 AMR-WB (16khz) 添加到支持的文本转语音音频输出格式列表
Python：为支持的 Linux 发行版添加了 Linux Arm64 包。
C#/C++/Java/Python：添加了相应支持，可以使用 AudioStreamWaveFormat 将 ALAW 和 MULAW 直接流式传输到语音服务（除了现有的 PCM 流）。
C# MAUI：更新了 NuGet 包，以支持面向 .NET MAUI 开发人员的 Android 目标（客户问题）
Mac：添加了适用于 Mac 的单独 XCframework，其中不包含任何 iOS 二进制文件。此组件为只需要 Mac 二进制文件的开发人员提供了一个使用较小 XCframework 包的选项。
Microsoft 音频堆栈 (MAS)：
- 指定波束成形角度时，将会更好地抑制源自指定范围之外的声音。
- 对于 Linux ARM32 和 Linux Arm64，libMicrosoft.CognitiveServices.Speech.extension.mas.so 的大小减少了大约 70%。
使用模式匹配进行意向识别：
- 添加了对语言 fr、de、es、jp 的正字法支持
- 添加了对语言 es 的预生成整数支持。

Bug 修复

iOS：修复了压缩音频解码故障在 iOS 16 上导致的语音合成错误（客户问题）。
JavaScript：
- 修复了在获取语音合成语音列表时身份验证令牌不起作用的问题（客户问题）。
- 使用数据 URL 加载工作器（客户问题）。
- 仅当浏览器支持 AudioWorklet 时才创建音频处理器 worklet（客户问题）。这得益于 William Wong 的社区贡献。感谢 William！
- 修复了 LUIS 响应 connectionMessage 为空时识别的回调（客户问题）。
- 正确设置语音分段超时。
使用模式匹配进行意向识别：
- 模型中的非 JSON 字符现在可正确加载。
- 修复了在连续识别期间调用 recognizeOnceAsync(text) 时操作挂起的问题。

语音 SDK 1.23.0：2022 年 7 月版本

新增功能

C#、C++、Java：在模式匹配的意向识别中添加了对语言 zh-cn 和 zh-hk 的支持。
C#：添加了对 AnyCPU .NET Framework 生成的支持

Bug 修复

Android：通过将 OpenSSL 更新到 1.1.1q 修复了 OpenSSL 漏洞 CVE-2022-2068
Python：修复使用 PushAudioInputStream 时的故障问题
iOS：修复 iOS 上报告的“EXC_BAD_ACCESS: 尝试取消引用空指针”（GitHub 问题）

语音 SDK 1.22.0：2022 年 6 月版本

新功能

Java：添加 IntentRecognitionResult API for getEntities()、applyLanguageModels()、和 recognizeOnceAsync(text) 以支持简单的模式匹配引擎。
Unity：添加了对 Mac M1 (Apple Silicon) for Unity 包（GitHub 问题）的支持
C#：添加了对 x86_64 for Xamarin Android （GitHub 问题）的支持
C#：.NET Framework 最低版本更新为 v4.6.2 for SDK C# 包，因为 v4.6.1 已停用（请参阅 Microsoft .NET Framework 组件生命周期策略）
Linux：添加了对 Debian 11 和 Ubuntu 22.04 LTS 的支持。 UUbuntu 22.04 LTS 需要手动安装 libssl1.1，一种方法是从此处将其作为二进制包（例如 libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 或 x64 更高版本）进行安装，另一种方法是通过从源编译进行安装。

Bug 修复

UWP：从 UWP 库中删除了 OpenSSL 依赖项，并替换为 WinRT websocket 和 HTTP API，以满足安全合规性和更小的二进制占用。
Mac：修复了使用面向 macOS 平台的 Swift 项目时出现的“MicrosoftCognitiveServicesSpeech 模块找不到”问题
Windows、Mac：修复了一个特定于平台的问题：通过属性配置为以实时速率流式传输的音频源有时会落后，最终超出容量

示例 (GitHub)

C#：更新为使用 v4.6.2 的 .NET Framework 示例
Unity：适用于 Android 和 UWP 的虚拟助手示例
Unity：针对 Unity 2020 LTS 版本更新的 Unity 示例

语音 SDK 1.21.0：2022 年 4 月版本

新功能

Java 和 JavaScript：添加了在使用 SpeechRecognizer 对象时对连续语言识别的支持
JavaScript：添加了诊断 API，以启用控制台日志记录级别和（仅限节点）文件日志记录，从而帮助 Microsoft 排查客户报告的问题
Python：添加了对“对话听录”的支持
Go：添加了对“说话人识别”的支持
C++ 和 C#：添加了对意向识别器中所需单词组的支持（简单模式匹配）。例如：“(set|start|begin) a timer”，其中必须存在“set”、“start”或“begin”才能使意向可被识别。
所有编程语言、语音合成：在字边界事件中添加了持续时间属性。添加了对标点边界和句子边界的支持
Objective-C/Swift/Java：在发音评估结果对象上添加了单词级结果（类似于 C#）。应用程序不再需要分析 JSON 结果字符串来获取单词级信息（GitHub 问题）
iOS 平台：添加了对 ARMv7 体系结构的实验性支持

Bug 修复

iOS 平台：修复了问题，以允许在使用 CocoaPod 时为目标“任何 iOS 设备”进行生成（GitHub 问题）
Android 平台：OpenSSL 版本已更新为 1.1.1n，以修复安全漏洞 CVE-2022-0778
JavaScript：修复了未使用文件大小更新 wav 头的问题（GitHub 问题）
JavaScript：修复了在请求 ID 不同步时出现中断翻译情况的问题（GitHub 问题）
JavaScript：修复了在没有流的情况下实例化 SpeakerAudioDestination 时出现的问题（GitHub 问题）
C++：修复了 C++ 头，以便在为 C++17 或更高版本进行编译时去除警告

GitHub 示例

有关包含“语言识别”功能的“语音识别”的新 Java 示例
有关“对话听录”的新 Python 和 Java 示例
有关“说话人识别”的新 Go 示例
适用于 Windows 的新 C++ 和 C# 工具，用于枚举所有音频捕获和呈现设备，以便用户查找其设备 ID。如果你计划从非默认设备捕获音频或将音频呈现到非默认设备，那么此 ID 是语音 SDK 所需的。

语音 SDK 1.20.0：2022 年 1 月发布

新增功能

Objective-C、Swift 和 Python：添加了对 DialogServiceConnector 的支持，用于语音助理场景。
Python：添加了对 Python 3.10 的支持。根据 Python 的 3.6 的生命周期终止，删除了对 Python 3.6 的支持。
Unity：Linux 上的 Unity 应用程序现在支持语音 SDK。
C++、C#：现在 C# 支持使用模式匹配的 IntentRecognizer。此外，C++ 和 C# 现在支持带有自定义实体、可选组和实体角色的场景。
C++、C#：改进了使用新类 FileLogger、MemoryLogger 和 EventLogger 的诊断跟踪日志记录。 SDK 日志是 Microsoft 诊断客户报告的问题的重要工具。这些新类使客户更容易将语音 SDK 日志集成到其自己的日志记录系统中。
所有编程语言：PronunciationAssessmentConfig 现在具有属性来设置所需的音素字母表（IPA 或 SAPI）和 N-Best 音素计数（根据 GitHub 问题 1284 避免创建配置 JSON）。此外，现在还支持音节级别输出。
Android、iOS 和 macOS（所有编程语言）：不再需要 GStreamer 来支持有限带宽的网络。 SpeechSynthesizer 现在使用操作系统的音频解码功能来解码从文本到语音服务流式传输的压缩音频。
所有编程语言：SpeechSynthesizer 现在支持三种新的原始输出 Opus 格式（无需容器），这些格式广泛应用于实时传送视频流场景。
JavaScript：向 SpeechSynthesizer 添加了 getVoicesAsync() API，以检索支持的合成语音列表（GitHub 问题 1350）
JavaScript：将 getWaveFormat () API 添加到 AudioStreamFormat 以支持非 PCM 的 wave 格式（GitHub 问题 452）
JavaScript：将卷 getter/setter 和 mute ()/unmute () API 添加到 SpeakerAudioDestination（GitHub 问题 463）

Bug 修复

C++、C#、Java、JavaScript、Objective-C 和 Swift：修复了以下问题：停止使用 PushAudioInputStream 的语音识别器时出现 10 秒的延迟。这适用于在调用 StopContinuousRecognition 后未推送新音频的情况（GitHub 问题 1318 和 331）
Android 和 UWP 上的 Unity：针对 UWP、Android Arm64 和适用于 Android (WSA) Arm64 的 Windows 子系统修复了 Unity 元文件（GitHub 问题 1360）
iOS：现已修复使用 CocoaPods 时对任何 iOS 设备上语音 SDK 应用程序的编译（GitHub 问题 1320）
iOS：将 SpeechSynthesizer 配置为将音频直接输出到扬声器时，在极少数情况下播放会在开始时停止。此问题已修复。
JavaScript：如果没有找到音频工作集，使用脚本处理器回退麦克风输入（GitHub 问题 455）
JavaScript：向代理添加协议，以缓解 Sentry 集成中发现的 bug（GitHub 问题 465）

GitHub 示例

显示如何获取详细识别结果的 C++、C#、Python 和 Java 示例。详细信息包括替代识别结果、置信度分数、词法形式、规范化表单、掩码规范化表单，以及每个表单的单词级计时。
使用 AVFoundation 作为外部音频源添加 iOS 示例。
添加了 Java 示例，用于显示如何使用 WordBoundary 事件获取 SRT（SubRip 文本）格式。
用于发音评估的 Android 示例
显示新诊断日志记录类的使用情况的 C++ 和 C#。

Speech SDK 1.19.0：2021-Nov 版本

亮点

说话人辨识服务现在正式发布 (GA)。可以通过 C++、C#、Java 和 JavaScript 来使用语音 SDK API。通过说话人辨识服务，你可以根据说话人独特的语音特征准确地验证和识别说话人。有关此主题的详细信息，请参阅文档。
我们已经与 Azure DevOps 和 GitHub 一起取消了对 Ubuntu 16.04 的支持。 Ubuntu 16.04 已于 2021 年 4 月结束生命周期。请将 Ubuntu 16.04 工作流迁移到 Ubuntu 18.04 或更高版本。
Linux 二进制文件中的 OpenSSL 链接已更改为动态。 Linux 二进制文件大小减少了约 50%。
增加了对基于 Mac M1 ARM 的芯片支持。

新增功能

C++/C#/Java：增加了新的 API 以通过 Microsoft 音频堆栈实现对语音输入的音频处理支持。文档在此处。
C++：新增了用于意图识别的 API，有助于更高级的模式匹配。这包括 List 和 Prebuilt Integer 实体，而且支持将意图和实体分组为模型（文档、更新和示例正在开发中，将于近期发布）。
Mac：与 GitHub 问题 1244 相关的 CocoaPod、Python、Java 和 NuGet 包支持基于 Arm64 (M1) 的芯片。
iOS/Mac：iOS 和 macOS 二进制文件现已打包到与 GitHub 问题 919 相关的 xcframework 中。
iOS/Mac：支持与 GitHub 问题 1171 相关的 Mac 催化剂。
Linux：针对 CentOS7 新增了 tar 包关于语音 SDK。 Linux .tar 包现在包含 lib/centos7-x64 中 RHEL/CentOS 7 的特定库。 lib/x64 中的语音 SDK 库仍适用于所有其他受支持的 Linux x64 分发版（包括 RHEL/CentOS 8），不适用于 RHEL/CentOS 7。
JavaScript：VoiceProfile 和 SpeakerRecognizer API 为异步/可等待。
JavaScript：新增了对美国政府 Azure 区域的支持。
Windows：新增了对通用 Windows 平台 (UWP) 上的播放的支持。

Bug 修复

Android：适用于 Android 包的 OpenSSL 安全更新（更新到版本 1.1.1l）。
Python：解决了在 Python 上选择扬声器设备失败的 bug。
核心：连接尝试失败时自动重新连接。
iOS：在使用 GStreamer 时，iOS 包会因稳定性和 bitcode 生成问题而禁用音频压缩。可以通过 GitHub 问题 1209了解详细信息。

GitHub 示例

Mac/iOS：更新了示例和快速入门，改为使用 xcframework 包。
.NET：更新了示例，改为使用 .NET core 3.1 版本。
JavaScript：增加了语音助手的示例。

语音 SDK 1.18.0：2021 年 7 月发行版

请注意：在此处开始使用语音 SDK。

突出显示摘要

Ubuntu 16.04 在 2021 年 4 月结束生命周期。我们将在 2021 年 9 月与 Azure DevOps 和 GitHub 一起取消对 16.04 的支持。请在此之前将 ubuntu-16.04 工作流迁移到 ubuntu-18.04 或更高版本。

新增功能

C++：现在，利用与意向识别器匹配的简单语言模式，可以更轻松地实现简单意向识别方案。
C++/C#/Java：我们为 VoiceProfileClient 类添加了新 API GetActivationPhrasesAsync()，用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
- 重要说明：说话人识别功能处于预览版阶段。在说话人识别功能从预览版中移出到正式发布版中 90 天后，所有在预览版中创建的语音配置文件都将会终止。届时，预览版语音配置文件将停止运行。
Python：在现有的 SpeechRecognizer 和 TranslationRecognizer 对象上添加了对连续语言标识 (LID) 的支持。
Python：添加了名为 SourceLanguageRecognizer 的新 Python 对象，以执行一次性或连续的 LID（不进行识别或翻译）。
JavaScript：为 VoiceProfileClient 类添加了 getActivationPhrasesAsync API，用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
JavaScript VoiceProfileClient 的 enrollProfileAsync API 现在为异步可等待。有关示例用法，请参阅此独立标识代码。

改进

Java：许多 Java 对象都添加了 AutoCloseable 支持。现在支持 try-with-resources 模型释放资源。请参阅使用 try-with-resources 的这个示例。若要了解此模式，另请参阅 try-with-resources 语句的 Oracle Java 文档教程。
许多平台和体系结构的磁盘占用量已显著降低。例如，对于 Microsoft.CognitiveServices.Speech.core 二进制：x64 Linux 小了 475KB（减少了 8.0%）；Arm64 Windows UWP 小了 464KB（减少了 11.5%）；x86 Windows 小了 343KB（减少了 17.5%）；x64 Windows 小了 451KB（减少了 19.4%）。

Bug 修复

Java：修复了在合成文本包含代理项字符时出现的合成错误。有关详细信息，请参阅此文。
JavaScript：浏览器麦克风音频处理现在使用 AudioWorkletNode 而不是已弃用的 ScriptProcessorNode。有关详细信息，请参阅此文。
JavaScript：在长期运行的对话翻译场景中，正确保持对话处于活动状态。有关详细信息，请参阅此文。
JavaScript：修复了识别器在连续识别时重新连接到 mediastream 的问题。有关详细信息，请参阅此文。
JavaScript：修复了识别器在连续识别时重新连接到 pushStream 的问题。有关详细信息，请参阅此文。
JavaScript：更正了详细识别结果中的单词级别偏移计算。有关详细信息，请参阅此文。

示例

Java 快速入门示例已在此更新。
JavaScript 说话人识别示例已更新为显示 enrollProfileAsync() 的新用法。请参阅此处的示例。

语音 SDK 1.17.0：2021 年 5 月发行版

注意

单击此处，开始使用语音 SDK。

突出显示摘要

占用量更少 - 我们持续减少语音 SDK 及其组件的内存和磁盘占用量。
新的独立语言识别 API 使你能够识别正在使用的语言。
在 macOS 上使用 Unity 开发支持语音的混合现实和游戏应用程序。
现在，除了 Go 编程语言的语音识别功能，还可以使用文本转语音功能。
修复了多个 Bug，解决了我们尊贵的客户在 GitHub 提到的问题！非常感谢！敬请不时提供反馈！

新增功能

C++/C#：通过 SourceLanguageRecognizer API 实现新的独立开始时和连续语言检测。如果只希望检测音频内容中使用的语言，此 API 可帮你做到这一点。查看 C++ 和 C# 的详细信息。
C++/C#：语音识别和翻译识别现在支持起始和连续语言识别，因此你可以通过编程的方式，在听录或翻译之前确定正在使用的语言。有关语音识别，请参阅此处的文档；有关语音翻译，请参阅此处的文档。
C#：为 macOS (x64) 添加了对 Unity 的支持。这将解锁混合现实和游戏中的语音识别及语音合成用例！
Go：我们在 Go 编程语言中添加了对语音合成文本转语音的支持，以便在更多用例中使用语音合成。请参阅快速入门或参考文档。
C++/C#/Java/Python/Objective-C/Go：语音合成器现在支持 connection 对象。这有助于管理和监视与语音服务的连接，尤其有助于进行预连接以减少延迟。参阅此处的文档。
C++/C#/Java/Python/Objective-C/Go：我们现在在 SpeechSynthesisResult 中公开了延迟和欠载运行时间，以帮助你监视和诊断语音合成延迟问题。请分别参阅 C++、C#、Java、Python、Objective-C 和 Go 的详细信息。
C++/C#/Java/Python/Objective-C：未指定要使用的声音时，文本转语音现在默认使用神经网络声音。默认情况下，这会为你提供更高保真输出，但也会增加默认价格。可指定超过 70 种标准语音或超过 130 种神经语音中的任何一种来更改默认设置。
C++/C#/Java/Python/Objective-C/Go：我们为合成语音信息添加了“性别”属性，以便更轻松地根据性别选择语音。这解决了 GitHub 问题 #1055。
C++、C#、Java、JavaScript：说话人识别现在支持 retrieveEnrollmentResultAsync、getAuthorizationPhrasesAsync 和 getAllProfilesAsync()，以方便用户管理给定帐户的所有语音配置文件。请分别参阅 C++、C#、Java、JavaScript 的文档。这解决了 GitHub 问题 #338。
JavaScript：我们添加了连接失败重试功能，使基于 JavaScript 的语音应用程序更加可靠。

改进

Linux 和 Android 语音 SDK 二进制文件进行了更新，以使用最新版本的 OpenSSL (1.1.1k)
代码大小改进：
- 语言理解现在拆分为单独的“lu”库。
- Windows x64 核心二进制文件大小减少了 14.4%。
- Android Arm64 核心二进制文件大小减少了 13.7%。
- 其他组件的大小也有所减小。

Bug 修复

全部：修复了 GitHub 问题 #842，即 ServiceTimeout 问题。现在，你可以使用语音 SDK 听录长的音频文件，而不会因为此错误而终止与服务的连接。但是，我们仍建议你对长文件使用批量听录。
C#：修复了 GitHub 问题 #947，即没有语音输入可能导致应用出错的问题。
Java：修复了 GitHub 问题 #997，即在无网络连接或订阅密钥无效的情况下使用 DialogServiceConnector 时，Java 语音 SDK 1.16 会发生崩溃的问题。
修复了突然停止语音识别（例如，在控制台应用中使用 CTRL+C）时发生崩溃的问题。
Java：添加了一项修复，支持在使用 Java 语音 SDK 时删除 Windows 上的临时文件。
Java：修复了 GitHub 问题 #994，即调用 DialogServiceConnector.stopListeningAsync 可能导致错误的问题。
Java：修复了虚拟助理快速入门中的一个客户问题。
JavaScript：修复了 GitHub 问题 #366，即 ConversationTranslator 会抛出“this.cancelSpeech 不是函数”错误。
JavaScript：修复了 GitHub 问题 #298，即“Get result as an in-memory stream”示例会大声播放声音的问题。
JavaScript：修复了 GitHub 问题 #350，即调用 AudioConfig 可能会导致“ReferenceError: MediaStream 未定义”的问题。
JavaScript：修复了 Node.js 中针对长时间运行会话的 UnhandledPromiseRejection 警告。

示例

你可以点击此处查看针对 macOS 更新的 Unity 示例文档。
你现在可以点击此处查看 Azure AI 语音识别服务的 React Native 示例。

语音 SDK 1.16.0：2021-March 版本

注意

Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。可从此处下载。

新增功能

C++/C#/Java/Python：已迁移到最新版本的 GStreamer (1.18.3)，支持在 Windows、Linux 和 Android 上转录任何媒体格式。参阅此处的文档。
C++/C#/Java/Objective-C/Python：为 SDK 新增了以下支持：解码压缩的 TTS/合成音频。如果将输出音频格式设置为 PCM，并且系统上有 GStreamer，则 SDK 会自动从服务请求压缩的音频以节省带宽，然后在客户端对音频进行解码。可以将 SpeechServiceConnection_SynthEnableCompressedAudioTransmission 设置为 false 以禁用此功能。有关 C++、C#、Java、Objective-C、Python 的详细信息。
JavaScript：Node.js 用户现在可以使用 AudioConfig.fromWavFileInput API。这解决了 GitHub 问题 #252。
C++/C#/Java/Objective-C/Python：添加了用于 TTS 的 GetVoicesAsync() 方法，用于返回所有可用的合成语音。有关 C++、C#、Java、Objective-C 和 Python 的详细信息。
C++/C#/Java/JavaScript/Objective-C/Python：为 TTS/语音合成添加了 VisemeReceived 事件，用于返回同步的视素动画。参阅此处的文档。
C++/C#/Java/JavaScript/Objective-C/Python：为 TTS 添加了 BookmarkReached 事件。你可以在输入 SSML 中设置书签，并获取每个书签的音频偏移量。参阅此处的文档。
Java：添加了对说话人辨识 API 的支持。有关详细信息，请参阅此文。
C++/C#/Java/JavaScript/Objective-C/Python：通过 WebM 容器为 TTS 添加了两种新的输出音频格式（Webm16Khz16BitMonoOpus 和 Webm24Khz16BitMonoOpus）。这些格式是用于通过 Opus 编解码器流式传输音频的更好格式。有关 C++、C#、Java、JavaScript、Objective-C、Python 的详细信息。
C++/C#/Java：添加了为说话人辨识方案检索语音配置文件的支持。有关 C++、C# 和 Java 的详细信息。
C++/C#/Java/Objective-C/Python：添加了对用于控制音频麦克风和扬声器的单独共享库的支持。这样开发人员就可以在没有所需音频库依赖项的环境中使用 SDK。
Objective-C/Swift：添加了对具有伞式标头的模块框架的支持。这允许开发人员在 iOS/Mac Objective-C/Swift 应用中将语音 SDK 作为模块导入。这解决了 GitHub 问题 #452。
Python：添加了对 Python 3.9 的支持，根据 Python 的 3.5 生命周期终止删除了对 Python 3.5 的支持。

已知问题

C++/C#/Java：DialogServiceConnector 无法使用 CustomCommandsConfig 来访问自定义命令应用程序，会发生连接错误。可以通过使用 config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) 手动将应用程序 ID 添加到请求来解决此错误。在下一版本中，将还原 CustomCommandsConfig 的预期行为。

改进

为了降低语音 SDK 的内存使用量和磁盘占用量，Android 二进制文件现在缩小了 3% 到 5%，这是我们的多版本工作的一部分。
改进了此处的 C# 参考文档的准确度、可读性和“另请参阅”部分。

Bug 修复

JavaScript：大 WAV 文件标头现在可以正确解析（将标头切片增加到了 512 字节）。这解决了 GitHub 问题 #962。
JavaScript：更正了麦克风流在停止识别前结束的麦克风计时问题，解决了语音识别在 Firefox 中不工作的问题。
JavaScript：当浏览器在 turnOn 完成之前强制麦克风关闭时，我们现在可以正确地处理初始化承诺。
JavaScript：我们已将 url 依赖项替换为 url-parse。这解决了 GitHub 问题 #264。
Android：修复了当 minifyEnabled 设置为 true 时回叫不起作用的问题。
C++/C#/Java/Objective-C/Python：TCP_NODELAY 会被正确设置为 TTS 的基础套接字 IO 以降低延迟。
C++/C#/Java/Python/Objective-C/Go：修复了因识别器刚开始识别就被销毁而偶尔发生的崩溃。
C++/C#/Java：修复了在解构扬声器识别器时偶尔发生的崩溃。

示例

JavaScript：浏览器示例不再需要单独下载 JavaScript 库文件。

语音 SDK 1.15.0：2021 年 1 月发行版

注意

Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。可从此处下载。

突出显示摘要

更小的内存和磁盘占用量，使 SDK 更有效。
适用于自定义神经语音个人预览版的更高保真输出格式。
意向识别器现在可以获得比首要意向更详细的返回结果，使你能够对客户意向进行单独的评估。
语音助理和机器人现在更易于设置，你可以立即使其停止收听，并可以更好地控制其对错误的响应方式。
使压缩成为可选功能，从而改进了设备性能。
在 Windows ARM/Arm64 上使用语音 SDK。
改进了低级别调试。
发音评估功能的适用范围现在更广泛。
修复了多个 Bug，解决了我们尊贵的客户在 GitHub 提到的问题！非常感谢！敬请不时提供反馈！

改进

语音 SDK 现在更高效、更轻型。我们已启动了一项跨多个发行版的工作，以减少语音 SDK 的内存用量和磁盘占用量。作为第一步，我们在大多数平台上的共享库中明显减小了文件大小。与 1.14 发行版相比：
- 64 位 UWP 兼容的 Windows 库大约减小了 30%。
- 32 位 Windows 库尚未在大小方面进行改进。
- Linux 库减小了 20-25%。
- Android 库减小了 3-5%。

新增功能

全部：可通过 TTS 语音合成 API 使用适用于自定义神经语音个人预览版的新 48 KHz 输出格式：Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。
全部：自定义语音也更易于使用。添加了通过 EndpointId 设置自定义语音的支持（C++、C#、Java、JavaScript、Objective-C、Python）。在此项更改之前，自定义语音用户需要通过 FromEndpoint 方法设置终结点 URL。现在，客户可以像处理预生成语音一样使用 FromSubscription 方法，然后通过设置 EndpointId 来提供部署 ID。这简化了自定义语音的设置。
C++/C#/Java/Objective-C/Python：从 IntentRecognizer 获取比首要意向更多的信息。它现在支持使用 verbose=true uri 参数通过 LanguageUnderstandingModel FromEndpoint 方法来配置包含所有意向（而不仅仅是首要评分意向）的 JSON 结果。这解决了 GitHub 问题 #880。请参阅此处的已更新文档。
C++/C#/Java：使语音助理或机器人立即停止收听。 DialogServiceConnector（C++、C#、Java）现有一个与 ListenOnceAsync() 配合使用的 StopListeningAsync() 方法。此方法会立即停止音频捕获并正常等待结果，因此非常适合用于按动“立即停止”按钮的场景。
C++/C#/Java/JavaScript：使语音助理或机器人更好地对底层系统错误做出反应。 DialogServiceConnector（C++、C#、Java、JavaScript）现有一个新的 TurnStatusReceived 事件处理程序。这些可选事件对应于机器人上的每个 ITurnContext 解决方案，并且将在发生轮次执行失败（例如，由于 Direct Line Speech 与机器人之间发生未经处理的异常、超时或断网）时予以报告。使用 TurnStatusReceived 可以更轻松地对失败状况做出响应。举例而言，如果机器人在后端数据库查询（例如查找产品）上花费的时间太长，TurnStatusReceived 将允许客户端适时地以“抱歉，我有点迷糊，请重试”或类似内容重新发出提示。
C++/C# ：在更多平台上使用语音 SDK。语音 SDK NuGet 包现在支持 Windows ARM/Arm64 桌面本机二进制文件（UWP 已受支持），使语音 SDK 在更多类型的计算机上有更大的用途。
Java：DialogServiceConnector 现有一个 setSpeechActivityTemplate() 方法，以前无意中从该语言中排除了此方法。此方法相当于设置 Conversation_Speech_Activity_Template 属性，并会请求由 Direct Line Speech 服务发起的所有未来 Bot Framework 活动将提供的内容合并到其 JSON 有效负载中。
Java：改进了低级别调试。类似于其他编程语言（C++、C#），Connection 类现有一个 MessageReceived 事件。此事件提供对服务传入的数据的低级别访问，并且对诊断和调试非常有用。
JavaScript：可以通过 BotFrameworkConfig 更轻松地设置语音助理和机器人。该类现有 fromHost() 和 fromEndpoint() 工厂方法，与手动设置属性相比，这些方法简化了自定义服务位置的使用。我们还标准化了 botId 的可选规范，以便在各个配置工厂中使用非默认机器人。
JavaScript：通过为 websocket 压缩添加的字符串控制属性改进了设备性能。出于性能原因，我们默认禁用了 websocket 压缩。在低带宽应用场景下可以重新启用此功能。此处提供了更多详细信息。这解决了 GitHub 问题 #242。
JavaScript：添加了发音评估支持，以便对语音发音进行评估。请参阅此处的快速入门。

Bug 修复

全部（JavaScript 除外）：修复了版本 1.14 中的回归，此问题导致识别器分配过多的内存。
C++ ：修复了 DialogServiceConnector 存在的垃圾回收问题，解决了 GitHub 问题 #794。
C# ：修复了线程关闭的问题，此问题导致对象在释放时阻塞大约一秒。
C++/C#/Java：修复了一个异常，该异常会阻止应用程序在 DialogServiceConnector 上多次设置语音授权令牌或活动模板。
C++/C#/Java：修复了由于在清理时出现争用状况而导致识别器崩溃的问题。
JavaScript：DialogServiceConnector 以前不遵循 BotFrameworkConfig 的工厂中指定的可选 botId 参数。这样，就需要手动设置 botId 查询字符串参数才能使用非默认机器人。该 bug 已予纠正，现在会遵循并使用提供给 BotFrameworkConfig 的工厂的 botId 值，包括新添加的 fromHost() 和 fromEndpoint()。这也适用于 CustomCommandsConfig 的 applicationId 参数。
JavaScript：修复了 GitHub 问题 #881，使识别器对象可供重复使用。
JavaScript：修复了以下问题：SKD 在一个 TTS 会话中多次发送 speech.config，从而浪费了带宽。
JavaScript：简化了有关麦克风授权的错误处理，允许在用户尚未允许在其浏览器中使用麦克风输入的情况下，以气泡形式显示更具描述性的消息。
JavaScript：修复了 GitHub 问题 #249：ConversationTranslator 和 ConversationTranscriber 中的类型错误导致 TypeScript 用户遇到编译错误。
Objective-C：修复了在 Xcode 11.4 上针对 iOS 进行 GStreamer 生成时失败的问题；解决了 GitHub 问题 #911。
Python：修复了 GitHub 问题 #870，删除了“DeprecationWarning: imp 模块已弃用，现已由 importlib 取代”。

示例

适用于 JavaScript 浏览器的“从文件识别”示例现在使用文件进行语音识别。这解决了 GitHub 问题 #884。

语音 SDK 1.14.0：2020 年 10 月版本

注意

Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。可从此处下载。

新增功能

Linux：添加了对 Debian 10 和 Ubuntu 20.04 LTS 的支持。
Python/Objective-C：添加了对 KeywordRecognizer API 的支持。文档见此处。
C++/Java/C#：添加了通过 ServicePropertyChannel::HttpHeader 设置任何 HttpHeader 键/值的支持。
JavaScript：添加了对 ConversationTranscriber API 的支持。阅读此处的文档。
C++/C#：在此处 (C++) 和此处 (C#) 添加了新的 AudioDataStream FromWavFileInput 方法（以读取 .WAV 文件）。
C++/C#/Java/Python/Objective-C/Swift：添加了 stopSpeakingAsync() 方法以停止文本转语音合成。请参阅此处 (C++)、此处 (C#)、此处 (Java)、此处 (Python) 和此处 (Objective-C/Swift) 的参考文档。
C#、C++、Java：向 Connection 类添加了 FromDialogServiceConnector() 函数，该函数可用于监视 DialogServiceConnector 的连接和断开连接事件。请参阅此处 (C#)、此处 (C++) 和此处 (Java) 的参考文档。
C++/C#/Java/Python/Objective-C/Swift：添加了发音评估支持，这样便可以评估语音发音，并为说话人提供有关讲话音频准确度和流利度的反馈。在此处阅读该文档。

重大更改

JavaScript：PullAudioOutputStream.read() 的返回类型从内部 Promise 更改为 Native JavaScript Promise。

Bug 修复

全部：修复了 SetServiceProperty 中的 1.13 回归（带有某些特殊字符的值被忽略）。
C# ：修复了 Visual Studio 2019 上的 Windows 控制台示例找不到本机 DLL 的问题。
C# ：修复了将流用作 KeywordRecognizer 输入时内存管理崩溃的问题。
ObjectiveC/Swift：修复了将流用作识别器输入时内存管理崩溃的问题。
Windows：修复了 UWP 上 BT HFP/A2DP 的共存问题。
JavaScript：修复了会话 ID 的映射，可改进日志记录并有助于内部调试/服务关联。
JavaScript：添加了对 DialogServiceConnector 在第一次调用后禁用 ListenOnce 调用的修补程序。
JavaScript：修复了结果输出只能是“simple”的问题。
JavaScript：修复了 macOS 上 Safari 中的连续识别问题。
JavaScript：针对高请求吞吐量场景的 CPU 负载缓解措施。
JavaScript：允许访问“语音配置文件注册”结果的详细信息。
JavaScript：针对 IntentRecognizer 中的连续识别添加了修补程序。
C++/C#/Java/Python/Swift/ObjectiveC：修复了 IntentRecognizer 中 australiaeast 和 brazilsouth 的错误 URL。
C++/C#：添加了 VoiceProfileType 作为创建 VoiceProfile 对象时的参数。
C++/C#/Java/Python/Swift/ObjectiveC：修复了尝试从给定位置读取 AudioDataStream 时潜在的 SPX_INVALID_ARG。
IOS：修复了 Unity 上的语音识别故障

示例

ObjectiveC：在此处添加了关键字识别的示例。
C#/JavaScript：在此处 (C#) 和此处 (JavaScript) 添加了对话听录的快速入门。
C++/C#/Java/Python/Swift/ObjectiveC：此处添加了发音评估示例

已知问题

HoloLens 2 和 Android 4.4 (KitKat) 默认情况下不支持 DigiCert 全局根 G2 证书，需要将该证书添加到系统中，才能使语音 SDK 正常运行。该证书将在不久的将来添加到 HoloLens 2 OS 映像中。 Android 4.4 客户需要将更新的证书添加到系统中。

COVID-19 缩减测试

由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动验证测试。我们没有做我们认为可能会造成任何破坏的任何更改，我们的自动化测试已全部通过。如果我们遗漏了某些内容，请在 GitHub 上告诉我们。
请保重身体！

语音 SDK 1.13.0：2020 年 7 月发行版

注意

Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。从此处下载并安装它。

新增功能

C# ：添加了异步对话听录的支持。参阅此处的文档。
JavaScript：添加了对浏览器和 Node.js 的说话人识别支持。
JavaScript：添加了对语言识别/语言 ID 的支持。参阅此处的文档。
Objective-C：添加了对多设备对话和对话听录的支持。
Python：针对 Windows 和 Linux 上的 Python 添加了压缩音频支持。参阅此处的文档。

Bug 修复

全部：修复了一个问题，此问题会导致在识别后 KeywordRecognizer 不会使流继续播放。
全部：修复了一个问题，此问题会导致从 KeywordRecognitionResult 获取的流不包含关键字。
全部：修复了 SendMessageAsync 在用户完成等待后不通过网络发送消息的问题。
全部：修复了以下问题：当用户多次调用 VoiceProfileClient::SpeakerRecEnrollProfileAsync 方法且不等待调用完成时，说话人识别 API 崩溃。
全部：修复了 VoiceProfileClient 和 SpeakerRecognizer 类中启用文件日志记录的问题。
JavaScript：修复了在最小化浏览器时与节流相关的一个问题。
JavaScript：修复了流中的一个内存泄漏问题。
JavaScript：为来自 NodeJS 的 OCSP 响应添加了缓存。
Java：修复了导致 BigInteger 字段总是返回 0 的问题。
iOS：修复了在 iOS App Store 中发布基于语音 SDK 的应用时出现的一个问题。

示例

C++ ：在此处添加了说话人识别的示例代码。

COVID-19 缩减测试

语音 SDK 1.12.1：2020 年 6 月版本

新增功能

C#、C++：说话人识别预览版：此功能可实现说话人识别（谁在讲话？）和说话人验证（与他们声称的身份相符吗？）。请参阅概述文档。

Bug 修复

C#、C++：在 1.12 版中，修复的麦克风录音在说话人识别中未正常工作。
JavaScript：针对 Firefox 中的以及 macOS 和 iOS 上的 Safari 中的文本转语音进行了修复。
针对使用八通道流时对话听录中 Windows 应用程序验证工具访问冲突崩溃的修复。
针对多设备对话翻译中 Windows 应用程序验证工具访问冲突崩溃的修复。

示例

C#：有关说话人识别的代码示例。
C++：有关说话人识别的代码示例。
Java：Android 上用于意向识别的代码示例。

COVID-19 缩减测试

语音 SDK 1.12.0：2020 年 5 月版本

新增功能

Go：对语音识别和自定义语音助理的新 Go 语言支持。在此处设置开发环境。有关示例代码，请参阅下面的“示例”部分。
JavaScript：添加了对文本转语音的浏览器支持。参阅此处的文档。
C++、C#、Java：Windows、Android、Linux 和 iOS 平台上支持的新 KeywordRecognizer 对象和 API。在此处阅读该文档。有关示例代码，请参阅下面的“示例”部分。
Java：添加了带翻译支持的多设备对话。在此处参阅参考文档。

改进与优化

JavaScript：优化了浏览器麦克风实现，改善了语音识别的准确性。
Java：使用直接 JNI 实现（没有 SWIG）重构了绑定。此项更改对于 Windows、Android、Linux 和 Mac 的所有 Java 包而言减少了 10 倍的绑定大小，并简化了语音 SDK Java 实现的进一步开发。
Linux：使用最新的 RHEL 7 特定说明更新了支持文档。
改进了连接逻辑，以便在出现服务和网络错误时多次尝试连接。
更新了 portal.azure.com 语音快速入门页，以帮助开发人员在 Azure AI 语音旅程中更进一步。

Bug 修复

C#、Java：修复了 Linux ARM（32 位和 64 位）上加载 SDK 库时出现的问题。
C#：修复了 TranslationRecognizer、IntentRecognizer 和 Connection 对象的本机句柄的显式处理。
C# ：修复了 ConversationTranscriber 对象的音频输入生存期管理。
修复了从简单短语识别意图时 IntentRecognizer 结果原因未正确设置的问题。
修复了未正确设置 SpeechRecognitionEventArgs 结果偏移量的问题。
修复了在打开 websocket 连接前 SDK 尝试发送网络消息的争用条件。添加参与者时，针对 TranslationRecognizer 可重现。
修复了关键字识别器引擎中的内存泄漏。

示例

Go：添加了语音识别和自定义语音助理的快速入门。在此处查找示例代码。
JavaScript：添加了适用于文本转语音、翻译和意向识别的快速入门。
适用于 C# 和 Java 的关键字识别示例 (Android)。

COVID-19 缩减测试

由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动验证测试。我们没有做我们认为可能会造成任何破坏的任何更改，我们的自动化测试已全部通过。如果我们遗漏了什么内容，请在 GitHub 上告诉我们。
请保重身体！

语音 SDK 1.11.0：2020 年 3 月版

新功能

Linux：增加了对 Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 的支持。
Linux：在 Linux ARM32 和 Arm64 上增加了对 .NET Core C# 的支持。在此处了解详细信息。
C#、C++：在 ConversationTranscriptionResult 中添加了 UtteranceId，这是在所有中间产物和最终的语音识别结果中保持一致的一个 ID。请参阅适用于 C#、C++ 的详细信息。
Python:增加了对 Language ID 的支持。参阅 GitHub 存储库中的 speech_sample.py。
Windows: 在 Windows 平台上为所有 win32 控制台应用程序增加了对压缩的音频输入格式的支持。有关详细信息，请参阅此文。
JavaScript：在 NodeJS 中支持语音合成（文本转语音）。在此处了解更多信息。
JavaScript：添加了新的 API，用于检查发送和接收的所有消息。在此处了解更多信息。

Bug 修复

C#、C++：修复了一个问题，因此 SendMessageAsync 现在以二进制类型发送二进制消息。请参阅适用于 C#、C++ 的详细信息。
C#、C++：修复了当使用 Connection MessageReceived 事件时在 Connection 对象之前释放 Recognizer 可能会导致故障的问题。请参阅适用于 C#、C++ 的详细信息。
Android：麦克风的音频缓冲区大小从 800 毫秒减小到 100 毫秒，降低了延迟。
Android：修复了 Android Studio 中 x86 Android 模拟器的一个问题。
JavaScript：在 fromSubscription API 中增加了对中国的区域的支持。有关详细信息，请参阅此文。
JavaScript：针对 NodeJS 中的连接失败添加了更多错误信息。

示例

Unity：修复了意向识别公共示例（其中的 LUIS json 导入失败）。有关详细信息，请参阅此文。
Python: 为 Language ID 添加了示例。有关详细信息，请参阅此文。

Covid19 缩减测试： 由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动的设备验证测试。例如，我们无法在 Linux、iOS 和 macOS 上测试麦克风输入与扬声器输出。我们没有做我们认为可能会破坏这些平台上的任何东西的任何更改，我们的自动化测试已全部通过。如果我们遗漏了某些内容，请在 GitHub 上告诉我们。
感谢你长久以来的支持。与往常一样，请在 GitHub 或 Stack Overflow 上发布问题或反馈。
请保重身体！

语音 SDK 1.10.0：2020 年 2 月版

新增功能

添加了 Python 包以支持新的 3.8 版 Python。
Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 支持（C++、C#、Java、Python）。

注意

客户必须根据这些说明配置 OpenSSL。
针对 Debian 和 Ubuntu 的 Linux ARM32 支持。
DialogServiceConnector 现在支持在 BotFrameworkConfig 中使用可选的“机器人 ID”参数。此参数允许将多个 Direct Line Speech 机器人与单个语音资源配合使用。如果不指定该参数，将使用默认机器人（由 Direct Line Speech 通道配置页确定）。
DialogServiceConnector 现有一个 SpeechActivityTemplate 属性。 Direct Line Speech 将使用此 JSON 字符串的内容来预先填充访问 Direct Line Speech 机器人的所有活动（包括响应语音识别等事件时自动生成的活动）中的各种受支持字段。
TTS 现在使用订阅密钥进行身份验证，降低了创建合成器后第一个合成结果的第一个字节延迟。
更新了 19 个区域设置的语音识别模型，平均单词错误率降低了 18.6%（es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR）。新模型在多个领域提供了重大改进，其中包括听写、呼叫中心脚本和视频索引方案。

Bug 修复

修复了在 JAVA API 中对话听录器未正确等待的 Bug
Android x86 仿真器修复（针对 Xamarin GitHub 问题）
为 AudioConfig 添加了缺失的 (Get|Set)Property 方法
修复了在连接失败时无法停止 audioDataStream 的 TTS Bug
使用无区域的终结点会导致对话翻译器出现 USP 故障
现在，在通用 Windows 应用程序中生成 ID 时会使用适当的唯一 GUID 算法；它以前无意中默认为存根实现，这种实现通常会在大型交互集上造成冲突。

示例

Unity 示例，可以将语音 SDK 与 Unity 麦克风和推送模式流式处理结合使用

其他更改

适用于 Linux 的 OpenSSL 配置文档已更新

语音 SDK 1.9.0：2020 年 1 月版

新增功能

多设备对话：将多个设备连接到相同语音或基于文本的对话，并选择性地翻译在连接双方之间发送的消息。在此文中了解详细信息。
为 Android .aar 包添加了关键字识别支持，并添加了 x86 和 x64 风格的支持。
Objective-C：已将 SendMessage 和 SetMessageProperty 方法添加到 Connection 对象。参阅此处的文档。
TTS C++ API 现在支持将 std::wstring 用作合成文本输入，这样，在将 wstring 传递给 SDK 之前，无需先将其转换为字符串。请参阅此处的详细信息。
C#：现在提供语言 ID 和源语言配置。
JavaScript：已将一项功能添加到 Connection 对象，以便从语音服务以回调 receivedServiceMessage 的形式传递自定义消息。
JavaScript：添加了对 FromHost API 的支持，以方便与本地容器和主权云配合使用。参阅此处的文档。
JavaScript：感谢 orgads 的贡献，我们现在可以采用 NODE_TLS_REJECT_UNAUTHORIZED。请参阅此处的详细信息。

重大更改

OpenSSL 已更新到版本 1.1.1b，并静态链接到适用于 Linux 的语音 SDK 核心库。如果未在系统的 /usr/lib/ssl 目录中安装收件箱 OpenSSL，这可能会造成中断。请查看语音 SDK 文档下的文档来解决此问题。
我们已经为 C# WordLevelTimingResult.Offset 返回的数据类型从 int 更改为 long，以便在语音数据超过 2 分钟时能够访问 WordLevelTimingResults。
PushAudioInputStream 和 PullAudioInputStream 现在可以根据 AudioStreamFormat（创建这两个类时选择性地指定）将 wav 标头信息发送到语音服务。现在，客户必须使用支持的音频输入格式。任何其他格式会导致识别结果欠佳，或者导致出现其他问题。

Bug 修复

请参阅上述“中断性变更”中的 OpenSSL 更新。修复了 Linux 和 Java 中的间歇性崩溃和性能问题（负载较高时发生锁争用）。
Java: 改进了高并发方案中的对象封闭。
重构了我们的 NuGet 包。我们删除了 lib 文件夹下 Microsoft.CognitiveServices.Speech.core.dll 和 Microsoft.CognitiveServices.Speech.extension.kws.dll 的三个副本，使 NuGet 包更小、下载更快，并添加了编译某些 C++ 本机应用所需的标头。
修复了此处的快速入门示例。修复的问题是在 Linux、macOS、Windows 上退出但不显示“未找到麦克风”异常。
修复了在某些代码路径中处理较长语音识别结果时发生 SDK 崩溃的问题，如此示例所示。
修复了 Azure Web 应用环境中的 SDK 部署错误，并解决了此客户问题。
修复了在使用多 <voice> 标记或 <audio> 标记时出现的 TTS 错误以解决此客户问题。
修复了从挂起状态恢复 SDK 时出现的 TTS 401 错误。
JavaScript：感谢 euirim 的贡献，修复了音频数据的循环导入。
JavaScript：添加了设置服务属性的支持（版本 1.7 中已添加此项支持）。
JavaScript：修复了以下问题：连接错误可能导致 websocket 重新连接尝试连续失败。

示例

在此处添加了适用于 Android 的关键字识别示例。
为此处的服务器方案添加了 TTS 示例。
在此处添加了适用于 C# 和 C++ 的多设备对话快速入门。

其他更改

优化了 Android 上的 SDK 核心库大小。
1.9.0 及更高版本中的 SDK 支持对话听录器的语音签名版本字段中的 int 和 string 类型。

语音 SDK 1.8.0：2019-November 版本

新增功能

添加了一个 FromHost() API，以方便用户将其与本地容器和主权云配合使用。
为语音识别添加了源语言识别功能（在 Java 和 C++ 中）
为语音识别添加了 SourceLanguageConfig 对象，用于指定所需的源语言（在 Java 和 C++ 中）
通过 NuGet 和 Unity 包在 Windows (UWP)、Android 和 iOS 上添加了 KeywordRecognizer 支持
添加了远程对话 Java API，用于以异步批的方式进行对话听录。

重大更改

对话听录器功能已移到 Microsoft.CognitiveServices.Speech.Transcription 命名空间下。
部分对话听录器方法已移到新的 Conversation 类。
放弃了对 32 位（ARMv7 和 x86）iOS 的支持

Bug 修复

针对以下问题进行了修复：如果在不使用有效语音服务订阅密钥的情况下使用本地 KeywordRecognizer，则会发生故障

示例

KeywordRecognizer 的 Xamarin 示例
KeywordRecognizer 的 Unity 示例
用于自动源语言识别的 C++ 和 Java 示例。

语音 SDK 1.7.0：2019-September 版本

新增功能

添加了对通用 Windows 平台 (UWP)、Android 和 iOS 上的 Xamarin 的测试版支持
添加了对 Unity 的 iOS 支持
增加了对 Android、iOS 和 Linux 上的 ALaw、Mulaw、FLAC 的 Compressed 输入支持
在 Connection 类中添加了 SendMessageAsync，用于向服务发送消息
在用于设置消息属性 Connection 类中添加了 SetMessageProperty
TTS 为 Java（JRE 和 Android）、Python、Swift 和 Objective-C 添加了绑定
TTS 添加了对 macOS、iOS 和 Android 的播放支持。
为 TTS 添加了“字边界”信息。

Bug 修复

修复了 Unity 2019 for Android 上的 IL2CPP 生成问题
修复了 wav 文件输入中格式错误的标头被错误处理的问题
修复了 UUID 在某些连接属性中不唯一的问题
修复了一些关于 Swift 绑定中说明符为 Null 性的警告（可能需要对代码进行少量更改）
修复了一个 Bug，该 Bug 导致 websocket 连接在网络负载下被意外关闭
修复了 Android 上的一个问题，该问题有时候导致 DialogServiceConnector 使用的印象 ID 重复
改进了进行多轮交互时连接的稳定性，以及它们发生在 DialogServiceConnector 上时（通过 Canceled 事件）对故障进行的报告
现在，DialogServiceConnector 会话开始时会正确提供事件，包括在活动 StartKeywordRecognitionAsync() 期间调用 ListenOnceAsync() 的时候
解决了与收到的 DialogServiceConnector 活动相关联的崩溃

示例

Xamarin 的快速入门
使用 Linux Arm64 信息更新了 CPP 快速入门
使用 iOS 信息更新了 Unity 快速入门

语音 SDK 1.6.0：2019 年 6 月发布

示例

UWP 和 Unity 上的文本转语音快速入门示例
iOS 上的 Swift 快速入门示例
语音和意向识别及翻译 Unity 示例
DialogServiceConnector 的更新的快速入门示例

改进 / 更改

对话命名空间：
- SpeechBotConnector 已重名为 DialogServiceConnector
- BotConfig 已重名为 DialogServiceConfig
- BotConfig::FromChannelSecret() 已重新映射到 DialogServiceConfig::FromBotSecret()
- 重命名后，仍旧支持所有现有的 Direct Line 语音客户端
更新了 TTS REST 适配器以支持代理和持久连接
改进了传递无效区域时出现的错误消息
Swift/Objective-C：
- 改进了错误报告：可能导致出错的方法现在有两个版本：一个版本公开用于错误处理的 NSError 对象，另一个版本引发异常。前者向 Swift 公开。此更改需要适应现有的 Swift 代码。
- 改进了事件处理

Bug 修复

针对 TTS 进行了以下问题的修复：SpeakTextAsync 不等到音频完成渲染就会提前返回
修复了 C# 中的封送字符串，以支持完整语言
修复了示例中的 .NET Core 应用问题，以使用 net461 目标框架加载核心库
修复了示例中的偶发性问题，以将本机库部署到输出文件夹
修复了 Web 套接字可靠关闭的问题
修复了在 Linux 负载较高的情况下打开连接时可能发生崩溃的问题
修复了 macOS 框架捆绑包中缺少元数据的问题
修复了 Windows 上的 pip install --user 问题

语音 SDK 1.5.1

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

Bug 修复

修复了 FromSubscription 与对话听录一起使用时出现的问题。
修复了语音助理的关键字辨识功能的 bug。

语音 SDK 1.5.0：2019 年 5 月发布

新增功能

现已推出适用于 Windows 和 Linux 的关键字辨识 (KWS)。 KWS 功能可能适用于任何麦克风类型，不过，官方的 KWS 支持目前仅限于 Azure Kinect DK 硬件或语音设备 SDK 中的麦克风阵列。
短语提示功能通过 SDK 提供。有关详细信息，请参阅此文。
对话听录功能通过 SDK 提供。
添加了对使用 Direct Line Speech 通道的语音助理的支持。

示例

添加了 SDK 支持的新功能或新服务的示例。

改进 / 更改

添加了各种识别器属性，以调整服务行为或服务结果（例如屏蔽猥亵内容等）。
现在，即使你创建了识别器 FromEndpoint，也能通过标准配置属性来配置识别器。
Objective-C：已将 OutputFormat 属性添加到 SPXSpeechConfiguration。
SDK 现在支持将 Debian 9 用作 Linux 分发版。

Bug 修复

修复了文本转语音中过早销毁讲述人资源的问题。

语音 SDK 1.4.2

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

语音 SDK 1.4.1

这是一个仅限 JavaScript 的版本。未增加任何功能。进行了以下修复：

阻止 Web 包加载 https-proxy-agent。

语音 SDK 1.4.0：2019 年 4 月发布

新增功能

SDK 现在支持 beta 版本的文本转语音服务。 Windows 和 Linux 桌面版中的 C++ 和 C# 支持该版本。有关详细信息，请查看文本转语音概述。
SDK 现在支持将 MP3 和 Opus/OGG 音频文件用作流输入文件。此功能只能通过 C++ 和 C# 在 Linux 上使用，目前为 beta 版（更多详细信息请参见此处）。
适用于 Java、.NET Core C++和 Objective-C 的语音 SDK 已获得 macOS 支持。 macOS 的 Objective-C 支持目前以 beta 版提供。
iOS：适用于 iOS (Objective-C) 的语音 SDK 现在也已作为 CocoaPod 发布。
JavaScript：支持将非默认麦克风用作输入设备。
JavaScript：Node.js 的代理支持。

示例

添加了有关在 macOS 上的 C++ 和 Objective-C 中使用语音 SDK 的示例。
已添加用于演示文本转语音服务用法的示例。

改进 / 更改

Python: 现在会通过 properties 属性公开识别结果的附加属性。
若要获得更多开发和调试支持，可将 SDK 日志记录和诊断信息重定向到日志文件中（更多详细信息请参见此处）。
JavaScript：提高了音频处理性能。

Bug 修复

Mac/iOS：修复了未能与语音服务建立连接时导致长时间等待的 bug。
Python：改进了 Python 回调中的参数的错误处理。
JavaScript：修复了 RequestSession 中结束的语音的错误状态报告。

语音 SDK 1.3.1：2019 年 2 月刷新

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

Bug 修复

修复了使用麦克风输入时出现的内存泄漏问题。基于流的输入或文件输入不受影响。

语音 SDK 1.3.0：2019 年 2 月版本

新增功能

语音 SDK 支持通过 AudioConfig 类来选择输入麦克风。这样，便可以将音频数据从非默认麦克风流式传输到语音服务。有关详细信息，请参阅介绍音频输入设备选择的文档。此功能在 JavaScript 中尚不可用。
语音 SDK 目前在 beta 版本中支持 Unity。请通过 GitHub 示例存储库中的问题部分来提供反馈。此版本支持在 Windows x86 和 x64（桌面或通用 Windows 平台应用程序）以及 Android（ARM32/64，x86）上使用 Unity。 Unity 快速入门中提供了更多信息。
不再需要 Microsoft.CognitiveServices.Speech.csharp.bindings.dll 文件（在以前的版本中提供）。此功能现在集成到核心 SDK 中。

示例

示例存储库中提供了以下新内容：

AudioConfig.FromMicrophoneInput 的其他示例。
有关意向识别和翻译的更多 Python 示例。
有关在 iOS 中使用 Connection 对象的更多示例。
有关具有音频输出的翻译的更多 Java 示例。
有关使用批量听录 REST API 的新示例。

改进 / 更改

Python
- 改进了 SpeechConfig 中的参数验证和错误消息。
- 添加了对 Connection 对象的支持。
- 支持 Windows 上的 32 位 Python (x86)。
- 适用于 Python 的语音 SDK 已完成 beta 版本。
iOS
- SDK 现在是基于 iOS SDK 版本 12.1 构建的。
- SDK 现在支持 iOS 版本 9.2 及更高版本。
- 改进了参考文档并修复了多个属性名称。
JavaScript
- 添加了对 Connection 对象的支持。
- 添加了捆绑的 JavaScript 的类型定义文件
- 首次支持并实现了短语提示。
- 随服务 JSON 返回属性集合以用于识别
Windows DLL 现在包含一个版本资源。
如果创建识别器 FromEndpoint，则可将参数直接添加到终结点 URL。使用 FromEndpoint 时，无法通过标准的配置属性来配置识别器。

Bug 修复

过去无法正确处理空的代理用户名和代理密码。在此版本中，如果将代理用户名和代理密码设置为空字符串，则在连接到代理时不会提交它们。
对于某些语言/环境，由 SDK 创建的 SessionId 并非总是真正随机的。已添加了随机生成器初始化来修复此问题。
改进了对授权令牌的处理。如果希望使用授权令牌，请在 SpeechConfig 中进行指定并将订阅密钥保留为空。然后，像往常一样创建识别器。
过去，在某些情况下，Connection 对象不能正确释放。现在已修复此问题。
JavaScript 示例已修复，在 Safari 上也支持用于翻译合成的音频输出。

语音 SDK 1.2.1

这是一个仅限 JavaScript 的版本。未增加任何功能。进行了以下修复：

在 turn.end 处触发流结束，在 speech.end 处不触发。
修复了音频泵中在当前发送失败时不安排下一次发送的 bug。
修复了使用身份验证令牌进行的连续识别。
对不同识别器 / 终结点的 bug 修复。
文档改进。

语音 SDK 1.2.0：2018 年 12 月版本

新增功能

Python
- 此版本支持 Python 的 Beta 版本（3.5 及更高版本）。有关详细信息，请参阅此文](../../quickstart-python.md)。
JavaScript
- 适用于 JavaScript 的语音 SDK 已开放了源代码。 GitHub 上提供了源代码。
- 我们现在支持 Node.js，可以在此处找到详细信息。
- 已删除了对音频会话的长度限制，将自动在后台进行重新连接。
（属于Connection 对象）的父级。
- 可以从 Recognizer 中访问 Connection 对象。此对象允许你显式启动服务连接并订阅连接事件和断开连接事件。（此功能在 JavaScript 和 Python 中尚不可用。）
支持 Ubuntu 18.04。
Android
- 在生成 APK 期间启用了 ProGuard 支持。

改进

改进了内部线程的使用，减少了线程、锁和互斥的数量。
改进了错误报告 / 信息。在某些情况下，错误消息没有完全传播出去。
更新了 JavaScript 中的开发依赖项来使用最新模块。

Bug 修复

修复了由于 RecognizeAsync 中的类型不匹配导致的内存泄漏。
在某些情况下，异常会被泄露。
修复了翻译事件参数中的内存泄漏。
修复了长时间运行的会话中与重新连接相关的锁定问题。
修复了可能会导致失败的翻译缺少最终结果的问题。
C#：如果在主线程中没有等待 async 操作，则可能会在异步任务完成之前释放识别器。
Java: 修复了导致 Java VM 故障的一个问题。
Objective-C：修复了枚举映射；之前返回 RecognizedIntent 而非 RecognizingIntent。
JavaScript：在 SpeechConfig 中将默认输出格式设置为“simple”。
JavaScript：删除了 JavaScript 和其他语言中配置对象中的属性之间的不一致。

示例

更新并修复了几个示例（例如，翻译的输出语音，等等）。
在示例存储库中添加了 Node.js 示例。

语音 SDK 1.1.0

新增功能

对 Android x86/x64 的支持。
代理支持：在 SpeechConfig 对象中，现在可以调用某个函数来设置代理信息（主机名、端口、用户名和密码）。此功能在 iOS 上尚不可用。
改进了错误代码和消息。如果识别返回了错误，这在过去会将 Reason（在已取消事件中）或 CancellationDetails（在识别结果中）设置为 Error。取消的事件现在包含两个附加的成员：ErrorCode 和 ErrorDetails。如果服务器随所报告的错误返回了附加的错误信息，则现在将在新成员中提供该信息。

改进

在识别器配置中添加了附加的验证并添加了附加的错误消息。
改进了对音频文件中间的长时间静默的处理。
NuGet 包：对于 .NET Framework 项目，它阻止使用 AnyCPU 配置进行构建。

Bug 修复

修复了在识别器中发现的几处异常。此外，还会捕获异常并将其转换为 Canceled 事件。
修复了属性管理中的内存泄漏。
修复了音频输入文件可能会导致识别器发生故障的 bug。
修复了在会话停止事件后可能会接收事件的 bug。
修复了线程中的一些争用条件。
修复了可能会导致故障的 iOS 兼容性问题。
改进了对 Android 麦克风的支持的稳定性。
修复了 JavaScript 中的识别器将忽略识别语言的 bug。
修复了阻止在 JavaScript 中设置 EndpointId（在某些情况下）的 bug。
更改了 JavaScript 中的 AddIntent 中的参数顺序，并添加了缺少的 AddIntent JavaScript 签名。

示例

在示例存储库中添加了拉取和推送流用法的 C++ 和 C# 示例。

语音 SDK 1.0.1

可靠性改进和 bug 修复：

修复了处理识别器时由于争用条件而导致的潜在严重错误
修复了未设置属性时的潜在灾难性错误。
添加了其他错误检查和参数检查。
Objective-C：修复了 NSString 中名称替代而引起的潜在严重错误。
Objective-C：调整了 API 的可见性
JavaScript：针对事件及其有效负载进行了修复。
文档改进。

在示例存储库中已添加了适用于 JavaScript 的新示例。

Azure AI 语音 SDK 1.0.0：2018 年 9 月版本

新增功能

支持 iOS 中的 Objective-C。请查看适用于 iOS 的 Objective-C 快速入门。
支持浏览器中的 JavaScript。请查看 JavaScript 快速入门。

重大更改

该版本中推出了大量重大更改。有关详细信息，请查看此页。

Azure AI 语音 SDK 0.6.0：2018 年 8 月版本

新增功能

使用语音 SDK 生成的 UWP 应用现在可以通过 Windows 应用认证工具包 (WACK)。请查看 UWP 快速入门。
在 Linux (Ubuntu 16.04 x64) 上支持 .NET Standard 2.0。
试验：在 Windows (64-bit) 和 Linux (Ubuntu 16.04 x64) 上支持 Java 8。请查看 Java 运行时环境快速入门。

功能性更改

公开了关于连接错误的更多错误详细信息。

重大更改

在 Java (Android) 中，SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 函数不再需要路径参数。现在，在所有受支持的平台上都会自动检测路径。
在 Java 和 C# 中，属性 EndpointUrl 的 get 访问器已被删除。

Bug 修复

在 Java 中，目前在翻译识别器上实现了音频合成结果。
修复了一个 bug，该 bug 可能会导致非活动线程和更多的已打开且未使用的套接字。
修复了长时间运行的识别可能会在传输过程中终止的问题。
修复了识别器关闭过程中的一个争用条件。

Azure AI 语音 SDK 0.5.0：2018 年 7 月版本

新增功能

支持 Android 平台（API 23：Android 6.0 Marshmallow 或更高版本）。查看 Android 快速入门。
在 Windows 上支持 .NET Standard 2.0。查看 .NET Core 快速入门。
试验：在 Windows 上支持 UWP（版本 1709 或更高版本）。
- 请查看 UWP 快速入门。
- 请注意，使用语音 SDK 生成的 UWP 应用尚未通过 Windows 应用认证工具包 (WACK) 的认证。
通过自动重新连接支持识别功能长时间运行。

功能性更改

StartContinuousRecognitionAsync() 支持识别功能长时间运行。
识别结果包含更多字段。这些字段是识别文本的音频开始和持续时间（均以刻度为单位）的偏移量和表示识别状态的其他值（例如 InitialSilenceTimeout、InitialBabbleTimeout）。
支持 AuthorizationToken 用于创建工厂实例。

重大更改

识别事件：NoMatch 事件类型已合并到 Error 事件中。
C# 中的 SpeechOutputFormat 已重命名为 OutputFormat 以与 C++ 保持一致。
AudioInputStream 接口的某些方法的返回类型略有更改：
- 在 Java 中，read 方法现返回 long 而不是 int。
- 在 C# 中，Read 方法现返回 uint 而不是 int。
- 在 C++ 中，Read 和 GetFormat 方法现返回 size_t 而不是 int。
C++：音频输入流的实例现在只能作为 shared_ptr 传递。

Bug 修复

修复了 RecognizeAsync() 超时时结果中的错误返回值。
删除了 Windows 上媒体基础库的依赖项。 SDK 现在使用 Core Audio API。
文档修复：添加了一个区域页来描述支持的区域。

已知问题

适用于 Android 的语音 SDK 不报告用于翻译的语音合成结果。此问题将在下一版本中修复。

Azure AI 语音 SDK 0.4.0：2018 年 6 月版本

功能性更改

AudioInputStream

一种现可将流用作音频源的识别器。有关详细信息，请参阅相关操作说明指南。
详细输出格式

创建 SpeechRecognizer 时，可请求 Detailed 或 Simple 输出格式。 DetailedSpeechRecognitionResult 包含置信度分数、识别的文本、原始词法形式、标准化形式和已屏蔽不当字词的标准化形式。

重大更改

将 C# 中的 SpeechRecognitionResult.RecognizedText 更改为 SpeechRecognitionResult.Text。

Bug 修复

修复了关闭期间 USP 层中可能出现的回叫问题。
如果识别器使用了音频输入文件，则它在文件句柄上停留的时间将超过必要时间。
删除了消息泵和识别器之间的多个死锁。
在服务的响应超时后触发 NoMatch 结果。
Windows 上的媒体基础库为延迟加载。此库仅用于麦克风输入。
音频数据的上传速度约限制为原始音频速度的两倍。
在 Windows 上，C# .NET 程序集现在为强命名。
文档修复：Region 是创建识别器所必需的信息。

已添加更多示例，还将持续更新。有关最新的示例集，请参阅语音 SDK 示例 GitHub 存储库。

Azure AI 语音 SDK 0.2.12733：2018 年 5 月版本

此版本是 Azure AI 语音 SDK 的第一个公共预览版本。

语音 CLI 1.40.0：2024 年 8 月版

已更新为使用语音 SDK 1.40.0

新功能

缺陷修复

语音 CLI 1.38.0：2024 年 6 月版本

已更新为使用语音 SDK 1.38.0

新功能

缺陷修复

语音 CLI 1.37.0：2024 年 4 月发布

已更新为使用语音 SDK 1.37.0

新功能

缺陷修复

语音 CLI 1.36.0：2024 年 3 月版

已更新为使用语音 SDK 1.36.0

新功能

缺陷修复

语音 CLI 1.35.0：2024 年 2 月版本

已更新为使用语音 SDK 1.35.0

新功能

缺陷修复

将 JMESPath 依赖项更新为最新

语音 CLI 1.34.0：2023 年 11 月版本

已更新为使用语音 SDK 1.34.0

语音 CLI 1.33.0：2023 年 10 月版本

已更新为使用语音 SDK 1.33.0

语音 CLI 1.31.0：2023 年 8 月版

已更新为使用语音 SDK 1.31.0

语音 CLI 1.30.0：2023 年 7 月版本

已更新为使用语音 SDK 1.30.0

语音 CLI 1.29.0：2023 年 6 月版本

已更新为使用语音 SDK 1.29.0

语音 CLI 1.28.0：2023 年 5 月版本

已更新为使用语音 SDK 1.28.0

语音 CLI 1.27.0：2023 年 4 月发布

更新

已更新为使用语音 SDK 1.27.0
更新默认终结点，以将 v3.1 REST API 用于自定义语音识别和批量语音识别。

Bug 修复

与如何分析/配置查询参数相关的修复。

语音 CLI 1.26.0：2023 年 3 月发布

已更新为使用语音 SDK 1.26.0.

语音 CLI 1.25.0：2023 年 1 月发布

已更新为使用语音 SDK 1.25.0。

语音 CLI 1.24.0：2022 年 10 月版本

使用语音 SDK 1.24.0。

新增功能

扩展了“spx 检查”以支持针对所有 spx 事件的 JMESPath 查询

Bug 修复

做出了各项改进，使 JMESPath 查询评估变得可靠
修复了资源受限的计算机上发生文件写入内容截断的问题

语音 CLI 1.23.0：2022 年 7 月版本

使用语音 SDK 1.23.0。

新增功能

更好的字幕（--output vtt 和 --output srt）大型结果拆分（最多 37 个字符，3 行）
记录了 spx synthesize --format 选项（请参阅 spx help synthesize format）
记录了大多数 spx csr 命令/选项（请参阅 spx help csr）
添加了 spx csr model copy 命令（请参阅 spx help csr model copy）
添加了使用 JMES 查询的 --check result 选项（请参阅 spx help check result）
改进了指定无效命令选项时的错误消息
从 .NET Core 3.1 移动到了 .NET 6.0。若要运行语音 CLI，需要安装 .NET 6.0 运行时（或更高版本）。

Bug 修复

更新了所有 URL 以删除语言（例如“en-US”)
修复了版本信息以在所有情况下正确报告（以前有时显示为空白）

语音 CLI 1.22.0：2022 年 6 月版本

使用语音 SDK 1.22.0。

新增功能

添加了 spx init 命令，指导用户完成语音资源密钥创建，而无需转到 Azure Web 门户。
语音 Docker 容器现在已包含 Azure CLI，因此命令 spx init 将立即生效。
将时间戳添加为事件输出选项，以便 SPX 在计算延迟时更加有用。

语音 CLI 1.21.0：2022 年 4 月版本

使用语音 SDK 1.21.0。

新增功能

WEBVTT 字幕生成
- 为 spx translate 添加了 --output vtt 支持
- 支持 --output vtt file FILENAME 替代默认 VTT FILENAME
- 支持 --output vtt file - 写入到标准输出
- 为每个目标语言（例如 --target en;de;fr）创建单个 VTT 文件
SRT 字幕生成
- 向 spx recognize、spx intent 和 spx translate 中添加了 --output srt 支持
- 支持 --output srt file FILENAME 替代默认 SRT FILENAME
- 支持 --output srt file - 写入到标准输出
- 对于 spx translate，会为每个目标语言（例如 --target en;de;fr）创建单个 SRT 文件

Bug 修复

更正了 WEBVTT 时间跨度输出以正确使用 hh:mm:ss.fff 格式

语音 CLI 1.20.0：2022 年 1 月发行

新增功能

说话人辨识
- spx profile enroll 和 spx speaker [identify/verify] 现在支持麦克风输入
意向识别 (spx intent)
- --keyword FILE.table
- --pattern 和 --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once、--once+ 和 --continuous（现在默认值是 continuous）
- --output all/each connection EVENT
- --output all/each connection message（例如 text 和 path）
CLI 控制台输出预期检查/创作：
- 所有命令都支持 --expect PATTERN 和 --not expect PATTERN
- --auto expect 有助于创建所需模式
SDK 日志记录输出预期检查/创作
- 所有命令都支持 --log expect PATTERN 和 --not log expect PATTERN
- 所有命令都支持 --log auto expect [FILTER]
- spx profile 和 spx speaker 上的 --log FILE 支持
音频文件输入
- 所有命令都支持 --format ANY
- --file - 支持（从标准输入读取，启用管道方案）
音频文件输出
- --audio output - 写入标准输出，启用管道方案
输出文件
- --output all/each file - 写入标准输出
- --output batch file - 写入标准输出
- --output vtt file - 写入标准输出
- --output json file - 写入标准输出，适用于 spx csr 和 spx batch 命令
输出属性
- --output […] result XXX property（PropertyId 或字符串）
- --output […] connection message received XXX property（PropertyId 或字符串）
- --output […] recognizer XXX property（PropertyId 或字符串）
Azure WebJob 集成
- spx webjob 现在遵循子命令模式
- 更新了 WebJob 帮助以反映子命令模式（参阅 spx help webjob）

Bug 修复

修复了同时使用 --output vtt FILE 和 --output batch FILE 时的 bug
spx [...] --zip ZIPFILENAME 现在包括所有方案所需的所有二进制文件（如果存在）
spx profile 和 spx speaker 命令现在返回有关取消的详细错误信息

2021 年 5 月版本

新增功能

添加了对配置文件、说话人 ID 和说话人验证的支持 - 请在命令行中尝试 spx profile 和 spx speaker。
我们还添加了对话支持 - 请尝试命令行中的 spx dialog。
改进了 spx 帮助。请提交 GitHub 问题，向我们提供有关此功能的反馈。
我们已减少了 .NET 工具安装的大小。

新冠肺炎缩减测试

由于疫情并未消退，我们的工程师仍旧必须在家办公，因此疫情发生前的手动验证脚本已大幅减少。我们只是使用较少的配置在较少的设备上进行了测试，环境特定的 bug 的漏测可能性也许会增大。我们仍会使用大量的自动化技术进行严格的验证。如果我们遗漏了某些内容，请在 GitHub 上告诉我们。
请保重身体！

2021 年 3 月版

新增功能

添加了用于意向识别的 spx intent 命令，替换 spx recognize intent。
识别和意向现在可以通过 Azure 函数使用 spx recognize --wer url <URL> 来计算字词错误率。
识别现在可以使用 spx recognize --output vtt file <FILENAME> 将结果输出为 VTT 文件。
调试/详细输出中现在会对敏感的密钥信息进行模糊处理。
在批量听录创建操作中添加了针对内容字段的 URL 检查和错误消息。

新冠肺炎缩减测试

2021 年 1 月版

新增功能

语音 CLI 现在以 NuGet 包的形式提供，可以通过 .NET CLI 将其安装为 .NET 全局工具（可从 shell/命令行调用）。
自定义语音 DevOps 模板存储库已更新为将语音 CLI 用于其自定义语音工作流。

新冠肺炎缩减测试

2020 年 10 月版本

SPX 是命令行接口，无需编写代码即可使用语音服务。在此处下载最新版本。

新增功能

spx csr dataset upload --kind audio|language|acoustic - 通过本地数据创建数据集，而不仅仅通过 URL。
spx csr evaluation create|status|list|update|delete - 将新模型与基线事实/其他模型进行比较。
spx * list - 支持非分页体验（不需要 --top X --skip X）。
spx * --http header A=B - 支持自定义标头（为 Office 添加以进行自定义身份验证）。
spx help - 改进了已编码的文本和反引号文本颜色（蓝色）。

2020 年 6 月版本

添加了 CLI 内帮助搜索功能：
- spx help find --text TEXT
- spx help find --topic NAME
更新为可与新部署的 v3.0 批处理和自定义语音识别 API 配合使用：
- spx help batch examples
- spx help csr examples

新冠肺炎缩减测试

语音 CLI（也称为 SPX）：2020 年 5 月发行版

SPX 是新的命令行工具，可用于从命令行执行识别、合成、翻译、批量听录和自定义语音管理。使用它来测试语音服务，或为需要执行的语音服务任务编写脚本。下载该工具，并在此处查看文档。

2025 年 1 月版本

自定义虚拟形象训练

现在可以自己在 Speech Studio 中训练自定义虚拟形象。以前只能等待 Microsoft 训练你的自定义虚拟形象。

有关如何创建自定义虚拟形象的详细信息，请参阅创建自定义文本转语音虚拟形象。

2024 年 10 月版本

预生成的神经语音

在公共预览版中引入了 4 个 Turbo 版本的 Azure OpenAI 语音：en-US-EchoTurboMultilingualNeural、en-US-FableTurboMultilingualNeural、en-US-OnyxTurboMultilingualNeural 和 en-US-ShimmerTurboMultilingualNeural。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色，但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能，就像其他 Azure AI 语音声音一样。有关详细信息，请参阅完整的语言和语音列表。

这些语音现已正式发布：

区域设置 (BCP-47)	语音名称
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

预生成的高清 (HD) 神经网络声音

Azure AI 语音高清 (HD) 语音现已推出公共预览版。 HD 语音可以理解内容，自动检测输入文本中的情绪，并实时调整说话语调，使之与情绪匹配。 HD 语音保持与其神经网络语音（和非高清语音）一致的声音特征，甚至会通过增强的功能提供更多价值。有关详细信息，请参阅什么是 Azure AI 语音高清 (HD) 语音？。

神经网络定制声音

以前，某些区域设置仅支持 V3 的训练方案。这些区域设置现在也支持 V9，从而能够提高训练质量并扩展功能。对于这些区域设置，请参阅下表：

区域设置 (BCP-47)	语言
`ar-EG`	阿拉伯语（埃及）
`ar-SA`	阿拉伯语(沙特阿拉伯)
`ca-ES`	加泰罗尼亚语
`cs-CZ`	捷克语(捷克)
`da-DK`	丹麦语（丹麦）
`de-AT`	德语（奥地利）
`de-CH`	德语（瑞士）
`el-GR`	希腊语(希腊)
`en-IN`	英语（印度）
`fi-FI`	芬兰语（芬兰）
`fr-CH`	法语（瑞士）
`he-IL`	希伯来语（以色列）
`hi-IN`	印地语（印度）
`hu-HU`	匈牙利语(匈牙利)
`ms-MY`	马来语（马来西亚）
`nb-NO`	书面挪威语（挪威）
`nl-NL`	荷兰语（荷兰）
`pl-PL`	波兰语（波兰）
`pt-PT`	葡萄牙语(葡萄牙)
`ro-RO`	罗马尼亚语(罗马尼亚)
`ru-RU`	俄语（俄罗斯）
`sk-SK`	斯洛伐克语（斯洛伐克）
`sv-SE`	瑞典语（瑞典）
`th-TH`	泰语（泰国）
`r-TR`	土耳其语 (Türkiye)
`vi-VN`	越南语(越南)
`zh-HK`	中文(粤语，繁体)
`zh-TW`	中文（台湾普通话，繁体）

神经网络定制声音专业版现在支持以下新区域设置：
- en-NZ：英语(新西兰)
- es-CL：西班牙语(智利)
- es-US：西班牙语（美国）
- ta-MY：泰米尔语（马来西亚）
请参阅神经网络定制声音的语言列表，了解受支持区域设置的完整列表。

跨语言功能现在支持将以下新区域设置用作源区域设置：

区域设置 (BCP-47)	语言
`da-DK`	丹麦语（丹麦）
`de-AT`	德语（奥地利）
`de-CH`	德语（瑞士）
`de-DE`	德语（德国）
`en-CA`	英语（加拿大）
`fi-FI`	芬兰语（芬兰）
`fr-CH`	法语（瑞士）
`hu-HU`	匈牙利语(匈牙利)
`ms-MY`	马来语（马来西亚）
`nb-NO`	书面挪威语（挪威）
`pt-PT`	葡萄牙语(葡萄牙)
`sv-SE`	瑞典语（瑞典）
`tr-TR`	土耳其语 (Türkiye)
`ta-IN`	泰米尔语（印度）
`zh-HK`	中文(粤语，繁体)

请参阅神经网络定制声音的语言列表，了解受支持区域设置的完整列表。

多样式语音功能现支持以下新区域设置：

区域设置 (BCP-47)	语言
`ar-EG`	阿拉伯语（埃及）
`ar-SA`	阿拉伯语(沙特阿拉伯)
`ca-ES`	加泰罗尼亚语
`cs-CZ`	捷克语(捷克)
`da-DK`	丹麦语（丹麦）
`de-AT`	德语（奥地利）
`de-CH`	德语（瑞士）
`de-DE`	德语（德国）
`el-GR`	希腊语(希腊)
`en-AU`	英语（澳大利亚）
`en-CA`	英语（加拿大）
`en-GB`	英语（英国）
`en-IN`	英语（印度）
`es-ES`	西班牙语(西班牙)
`es-MX`	西班牙语（墨西哥）
`fi-FI`	芬兰语（芬兰）
`fr-CA`	法语（加拿大）
`fr-CH`	法语（瑞士）
`fr-FR`	法语（法国）
`he-IL`	希伯来语（以色列）
`hi-IN`	印地语（印度）
`hu-HU`	匈牙利语(匈牙利)
`it-IT`	意大利语（意大利）
`ko-KR`	韩语(韩国)
`ms-MY`	马来语（马来西亚）
`nb-NO`	书面挪威语（挪威）
`nl-BE`	荷兰语（比利时）
`nl-NL`	荷兰语（荷兰）
`pl-PL`	波兰语（波兰）
`pt-BR`	葡萄牙语（巴西）
`pt-PT`	葡萄牙语(葡萄牙)
`ro-RO`	罗马尼亚语(罗马尼亚)
`ru-RU`	俄语（俄罗斯）
`sk-SK`	斯洛伐克语（斯洛伐克）
`sv-SE`	瑞典语（瑞典）
`th-TH`	泰语（泰国）
`tr-TR`	土耳其语 (Türkiye)
`vi-VN`	越南语(越南)
`zh-HK`	中文(粤语，繁体)
`zh-TW`	中文（台湾普通话，繁体）

请参阅神经网络定制声音的语言列表，了解受支持区域设置的完整列表。

2024 年 9 月版本

预生成的神经语音

在以下区域设置中添加了对新语音的支持和正式发布：

区域设置 (BCP-47)	语言	文本转语音声音
`as-IN`	阿萨姆语（印度）	`as-IN-YashicaNeural`（女） `as-IN-PriyomNeural`（男）
`or-IN`	奥里亚语（印度）	`or-IN-SubhasiniNeural`（女） `or-IN-SukantNeural`（男）
`pa-IN`	旁遮普语（印度）	`pa-IN-OjasNeural`（男） `pa-IN-VaaniNeural`（女）

此表中的一种声音已正式发布，但仅支持“en-IN”区域设置。

区域设置 (BCP-47)	语言	文本转语音声音
`en-IN`	英语（印度）	`en-IN-AashiNeural`（女）

此表中的五种语音已正式发布，支持“en-IN”和“hi-IN”区域设置。

区域设置 (BCP-47)	语言	文本转语音声音
`en-IN`	英语（印度）	`en-IN-AaravNeural`（男） `en-IN-AnanyaNeural`（女） `en-IN-KavyaNeural`（女） `en-IN-KunalNeural`（男） `en-IN-RehaanNeural`（男）
`hi-IN`	印地语（印度）	`hi-IN-AaravNeural`（男） `hi-IN-AnanyaNeural`（女） `hi-IN-KavyaNeural`（女） `hi-IN-KunalNeural`（男） `hi-IN-RehaanNeural`（男）

声音风格和角色

添加了对 en-IN-NeerjaNeural 和 hi-IN-SwaraNeural 语音的 newscast、cheerful、empathetic 样式支持。

为以下语音添加了新样式：

es-MX-DaliaNeural：whispering、sad、cheerful
fr-FR-DeniseNeural：whispering、sad、excited
it-IT-IsabellaNeural: whispering, sad, excited, cheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excited, cheerful
fr-FR-HenriNeural：whispering、sad、excited
it-IT-DiegoNeural：sad、excited、cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

有关详细信息，请参阅语音风格和角色。

2024 年 8 月版本

预生成的神经语音

在公共预览版中推出了新的多语言声音。有关详细信息，请参阅完整的语言和语音列表。

全新的多语言声音

Locale	语言	性别	语音名称
en-US	英语（美国）	男	en-US-AdamMultilingualNeural
en-US	英语（美国）	女	en-US-AmandaMultilingualNeural
en-US	英语（美国）	男	en-US-DerekMultilingualNeural
en-US	英语（美国）	男	en-US-LewisMultilingualNeural
en-US	英语（美国）	女	en-US-LolaMultilingualNeural
en-US	英语（美国）	女	en-US-PhoebeMultilingualNeural
en-US	英语（美国）	男	en-US-SamuelMultilingualNeural
en-US	英语（美国）	女	en-US-SerenaMultilingualNeural
en-US	英语（美国）	男	en-US-DustinMultilingualNeural
en-US	英语（美国）	女	en-US-EvelynMultilingualNeural
es-ES	西班牙语(西班牙)	男	es-ES-TristanMultilingualNeural
fr-FR	法语(法国)	男	fr-FR-LucienMultilingualNeural
pt-BR	葡萄牙语（巴西）	男	pt-BR-MacerioMultilingualNeural
zh-CN	中文（普通话，简体）	男	zh-CN-YunfanMultilingualNeural
zh-CN	中文（普通话，简体）	男	zh-CN-YunxiaoMultilingualNeural
zh-CN	中文（普通话，简体）	男	zh-CN-YunyiMultilingualNeural

单语言模型更新为多语言声音，提升了自然性

Locale	语言	性别	语音名称
en-US	英语（美国）	女	en-US-NancyMultilingualNeural
en-US	英语（美国）	男	en-US-BrandonMultilingualNeural
en-US	英语（美国）	男	en-US-ChristopherMultilingualNeural
en-US	英语（美国）	女	en-US-CoraMultilingualNeural
en-US	英语（美国）	男	en-US-DavisMultilingualNeural
en-US	英语（美国）	男	en-US-SteffanMultilingualNeural
es-ES	西班牙语(西班牙)	Female	es-ES-XimenaMultilingualNeural
it-IT	意大利语（意大利）	男	it-IT-GiuseppeMultilingualNeural
ko-KR	韩语(韩国)	男	ko-KR-HyunsuMultilingualNeural

增强了下列当前的多语言声音，提高了质量。

Locale 语言性别语音名称

en-US 英语（美国）男 en-US-AndrewMultilingualNeural

en-US 英语（美国）女 en-US-AvaMultilingualNeural
现在有三种多语言声音支持风格。有关详细信息，请参阅语音风格和角色。
- en-US-SerenaMultilingualNeural：empathetic、excited、friendly、shy、serious、relieved、sad。
- en-US-AndrewMultilingualNeural：empathetic 和 relieved。
- zh-CN-XiaoxiaoMultilingualNeural：affectionate、cheerful、empathetic、excited、poetry-reading、sorry、story。

Locale	语言	性别	语音名称
en-US	英语（美国）	男	en-US-AndrewMultilingualNeural
en-US	英语（美国）	女	en-US-AvaMultilingualNeural

2024 年 7 月版本

文本转语音虚拟形象 (GA)

文本转语音虚拟形象现已正式发布。有关详细信息，请参阅文本转语音虚拟形象。

预生成的神经语音

在公共预览版中引入 2 个 Turbo 版本的 Azure OpenAI 声音：en-US-AlloyTurboMultilingualNeural 和 en-US-NovaTurboMultilingualNeural。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色，但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能，就像其他 Azure AI 语音声音一样。有关详细信息，请参阅完整的语言和语音列表。
在公共预览版中引入了 2 种新的多语言声音：zh-CN-YunfanMultilingualNeural 和 zh-CN-YunxiaoMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。

嵌入式神经网络语音

en-US-JennyMultilingual 声音在生产环境中发布，支持多达 24 个区域设置的设备端体验。有关支持的区域设置，请参阅下表。

Locale	语言
`da-DK`	丹麦语（丹麦）
`de-DE`	德语（德国）
`en-AU`	英语（澳大利亚）
`en-GB`	英语（英国）
`en-IN`	英语（印度）
`en-US`	英语（美国）
`es-ES`	西班牙语(西班牙)
`es-MX`	西班牙语（墨西哥）
`fr-CA`	法语（加拿大）
`fr-FR`	法语（法国）
`he-IL`	希伯来语（以色列）
`it-IT`	意大利语（意大利）
`ja-JP`	日语（日本）
`ko-KR`	韩语(韩国)
`nb-NO`	书面挪威语（挪威）
`nl-NL`	荷兰语（荷兰）
`pl-PL`	波兰语（波兰）
`pt-PT`	葡萄牙语(葡萄牙)
`sv-SE`	瑞典语（瑞典）
`th-TH`	泰语（泰国）
`tr-TR`	土耳其语 (Türkiye)
`zh-CN`	中文（普通话，简体）
`zh-HK`	中文(粤语，繁体)
`zh-TW`	中文（台湾普通话，繁体）

2024 年 6 月版本

预生成的神经语音

公共预览版中的 6 个新语音在特定区域可用：东亚、东南亚、美国东部、美国西部和印度中部。

Locale	语言	文本转语音声音
`or-IN`	奥里亚语（印度）	`or-IN-SubhasiniNeural`（女）
`or-IN`	奥里亚语（印度）	`or-IN-SukantNeural`（男）
`pa-IN`	旁遮普语（印度）	`pa-IN-VaaniNeural`（女）
`pa-IN`	旁遮普语（印度）	`pa-IN-OjasNeural`（男）
`as-IN`	阿萨姆语（印度）	`as-IN-YashicaNeural`（女）
`as-IN`	阿萨姆语（印度）	`as-IN-PriyomNeural`（男）

有关详细信息，请参阅完整的语言和语音列表。

文本转语音虚拟形象

文本转语音虚拟形象功能现在支持以下区域：东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部 2。有关详细信息，请参阅语音服务区域。

2024 年 5 月版本

个人声音（正式版）

个人声音现已推出正式版。使用个人语音，可以在几秒钟内获得 AI 生成的你的语音（或应用程序用户的语音）的副本。提供一分钟的语音示例作为音频提示，然后使用它来生成跨 100 个以上区域设置支持的 90 多种语言中的任何一种语音。有关详细信息，请参阅个人声音概述。

预生成的神经语音

在公共预览版中引入了 8 种新的多语言语音：en-GB-AdaMultilingualNeural、en-GB-OllieMultilingualNeural、es-ES-ArabellaMultilingualNeural、es-ES-IsidoraMultilingualNeural、it-IT-AlessioMultilingualNeural、it-IT-IsabellaMultilingualNeural、it-IT-MarcelloMultilingualNeural 和 pt-BR-ThalitaMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
在公共预览版中引入了针对呼叫中心场景优化的 2 种新的 en-US 语音：en-US-LunaNeural 和 en-US-KaiNeural。有关详细信息，请参阅完整的语言和语音列表。

2024 年 4 月版本

文本转语音虚拟形象

现在可以为头像设置静态背景图像。若要利用此功能，只需使用 avatarConfig.backgroundImage 属性并指定指向所需图像的 URL。有关详情，请参阅如何编辑背景。

2024 年 3 月版本

预生成的神经语音

9 种多语言语音在所有区域正式发布：en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、de-DE-FlorianMultilingualNeural、de-DE-SeraphinaMultilingualNeural、fr-FR-RemyMultilingualNeural、fr-FR-VivienneMultilingualNeural、zh-CN-XiaoxiaoMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
为公共预览版引入一种新的多语言语音：ja-JP-MasaruMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
其他更新：
- en-US-RyanMultilingualNeural 在所有区域正式发布。
- en-US-JennyMultilingualV2Neural 在所有区域正式发布，并与 en-US-JennyMultilingualNeural 合并。
- 更新后的 en-IN-NeerjaNeural 和 hi-IN-SwaraNeural 提供了预览版，有 3 种新的样式在美国东部、西欧和东南亚推出。
- 新的女性语音在印度中部提供预览版：en-IN-KavyaNeural、en-IN-AnanyaNeural、en-IN-AashiNeural、hi-IN-KavyaNeural 和 hi-IN-AnanyaNeural。

文本转语音虚拟形象

删除了Azure 通信服务 (ACS) TURN的依赖项，以实现虚拟形象。示例代码已相应地更新，以反映此更改。
已发布文本转语音虚拟形象定价。有关详细信息，请参阅定价页。请注意，虚拟形象定价将仅在服务区域中可见，包括美国西部 2、西欧和东南亚。

2024 年 2 月版本

OpenAI 语音

Azure AI 语音服务支持以下区域中的 OpenAI 文本转语音：美国中北部和瑞典中部。与 Azure AI 语音声音一样，OpenAI 文本转语音声音提供高质量的语音合成，将书面文本转换为自然的口述音频。它可解锁各种沉浸式和交互式用户体验的可能性。有关详细信息，请参阅什么是 OpenAI 文本转语音声音？。

注意

Azure OpenAI 服务中也提供了 OpenAI 文本转语音声音。
通过此更新，我们调整了 Azure AI 语音预生成的神经语音的定价。在此处查看更新的定价。

个人语音

个人声音功能现在支持 DragonLatestNeural 和 PhoenixLatestNeural 模型。这些新模型增强了合成语音的自然性，使其更加贴近提示中的声音的语音特征。有关更多详细信息，请参阅在你的应用程序中集成个人声音。

2023 年 12 月版本

定制声音 API

定制声音 API 可用于创建和管理专业和个人神经网络定制声音模型。

神经网络定制声音

新训练的语音模型现在支持 48 kHz 采样率，无论模型版本如何。对于之前训练过的语音模型，需要将引擎版本升级到至少 2023.11.13.0 版本，以将采样率提高到 48 kHz。

预生成的神经语音

为公共预览版引入新的多语言语音：

区域设置 (BCP-47)	语言	文本转语音声音
`de-DE`	德语（德国）	`de-DE-FlorianMultilingualNeural`（男）
`de-DE`	德语（德国）	`de-DE-SeraphinaMultilingualNeural`（女）
`en-US`	英语（美国）	`en-US-AvaMultilingualNeural`（女）
`en-US`	英语（美国）	`en-US-EmmaMultilingualNeural`（女）
`fr-FR`	法语（法国）	`fr-FR-RemyMultilingualNeural`（男）
`en-US`	英语（美国）	`en-US-BrianMultilingualNeural`（男）
`en-US`	英语（美国）	`en-US-AndrewMultilingualNeural`（男）
`fr-FR`	法语（法国）	`fr-FR-VivienneMultilingualNeural`（女）
`zh-CN`	中文（普通话，简体）	`zh-CN-XiaoxiaoMultilingualNeural`（女）
`zh-CN`	中文（普通话，简体）	`zh-CN-XiaochenMultilingualNeural`（女）
`zh-CN`	中文（普通话，简体）	`zh-CN-YunyiMultilingualNeural`（男）

支持多个中文方言和口音的公共预览版新 zh-CN-XiaoxiaoDialectsNeural 语音简介：

语音名称	辅助语言	方言/口音
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	中文（中原官话陕西，简体）
	`zh-CN-sichuan`	中文（西南普通话，简体）
	`zh-CN-shanxi`	中文（山西口音普通话，简体）
	`nan-CN`	中文（闽南话，简体）
	`zh-CN-anhui`	中文（安徽江淮普通话，简体）
	`zh-CN-hunan`	中文（湖南口音普通话，简体）
	`zh-CN-gansu`	中文（甘肃兰银普通话，简体）
	`zh-CN-shandong`	中文（冀鲁官话，简体）
	`zh-CN-henan`	中文（中原官话河南，简体）
	`zh-CN-liaoning`	中文（东北官话，简体）
	`zh-TW`	中文（台湾普通话，繁体）

2023 年 11 月版本

个人语音

个人语音可在以下地区预览：西欧、美国东部和东南亚。使用个人语音（预览版），可以在几秒钟内获得 AI 生成的语音（或应用程序用户）的复制内容。提供一分钟的语音示例作为音频提示，然后使用它会生成 100 多个地区支持的 90 多种语言中的任何一种语言的语音。

有关更多信息，请参阅个人语音。

文本转语音虚拟形象

文本转语音虚拟形象可在以下地区预览：美国西部 2、西欧和东南亚。

文本转语音虚拟形象将文本转换为拟真人物（预构建的虚拟形象或自定义文本到语音虚拟形象）以自然声音说话的数字视频。文本转语音虚拟形象视频可以异步合成或实时合成。开发人员可以通过 API 生成与文本转语音虚拟形象集成的应用程序，或使用 Speech Studio 上的内容创建工具创建视频内容，而无需编码。

有关更多信息，请参阅文本转语音虚拟形象、透明度说明以及语音和虚拟形象发音人的披露。

神经网络定制声音

为跨语言语音添加了 24 个新区域设置的支持。有关详细信息，请参阅完整的语言列表。

预生成的神经语音

为公共预览版引入新语音：

区域设置 (BCP-47)	语言	文本转语音声音
`de-DE`	德语（德国）	`SeraphinaNeural`（女）
`es-ES`	西班牙语(西班牙)	`XimenaNeural`（女）
`fr-CA`	法语（加拿大）	`ThierryNeural`（男）
`fr-FR`	法语（法国）	`VivienneNeural`（女）
`it-IT`	意大利语（意大利）	`GiuseppeNeural`（男）
`ko-KR`	韩语(韩国)	`HyunsuNeural`（男）
`pt-BR`	葡萄牙语（巴西）	`ThalitaNeural`（女）

模型更新，修复了错误并改进了质量：

区域设置 (BCP-47)	语言	文本转语音声音
`es-ES`	西班牙语(西班牙)	`AlvaroNeural`（男）
`en-GB`	英语（英国）	`RyanNeural`（男）
`ko-KR`	韩语(韩国)	`InjoonNeural`（男）

有关详细信息，请参阅完整的语言和语音列表。

2023 年 10 月版本

神经网络定制声音

在神经网络定制声音专业版中添加了对 12 个区域设置的支持。有关详细信息，请参阅完整的语言列表。

2023 年 9 月版本

预生成的神经语音

为公共预览版引入新语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	英语（美国）	`en-US-EmmaNeural`（女）
`en-US`	英语（美国）	`en-US-AndrewNeural`（男）
`en-US`	英语（美国）	`en-US-BrianNeural`（男）

有关详细信息，请参阅完整的语言和语音列表。

嵌入式神经网络语音

此处的所有 147 个区域设置（fa-IR、波斯语(伊朗) 除外）都可直接使用，它们带有 1 个选定的女性语音和/或 1 个选定的男性语音。

2023 年 8 月版本

神经网络定制声音

最新的 CNV 精简版训练方案版本现已发布。此版本对语言模型的质量进行了多项增强。试用 Speech Studio。

2023 年 7 月版

神经网络定制声音

多风格语音已正式发布。
公共预览版中为多风格语音添加了两个新的区域设置：ja-JP 和 zh-CN。有关详细信息，请参阅完整的语言和语音列表。请参阅不同语言的预设风格列表。
跨语言语音已正式发布。
为跨语言语音添加了两个新的区域设置：id-ID 和 nl-NL。有关详细信息，请参阅完整的语言和语音列表。

预生成的神经网络 TTS 语音

为公共预览版引入新的 en-US 性别中立语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	英语（美国）	`en-US-BlueNeural`（中立）

为公共预览版引入新的多语言语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	英语（美国）	`en-US-JennyMultilingualV2Neural`（女）
`en-US`	英语（美国）	`en-US-RyanMultilingualNeural`（男）

多语言语音 en-US-JennyMultilingualV2Neural 和 en-US-RyanMultilingualNeural 会自动检测输入文本的语言。但是，你仍然可以使用 <lang> 元素来调整这些语音的说话语言。

这些新的多语言语音可以使用 41 种语言和口音说出：Arabic (Egypt)、Arabic (Saudi Arabia)、Catalan、Czech (Czechia)、Danish (Denmark)、German (Austria)、German (Switzerland)、German (Germany)、English (Australia)、English (Canada)、English (United Kingdom)、English (Hong Kong SAR)、English (Ireland)、English (India)、English (United States)、Spanish (Spain)、Spanish (Mexico)、Finnish (Finland)、French (Belgium)、French (Canada)、French (Switzerland)、French (France)、Hindi (India)、Hungarian (Hungary)、Indonesian (Indonesia)、Italian (Italy)、Japanese (Japan)、Korean (Korea)、Norwegian Bokmål (Norway)、Dutch (Belgium)、Dutch (Netherlands)、Polish (Poland)、Portuguese (Brazil)、Portuguese (Portugal)、Russian (Russia)、Swedish (Sweden)、Thai (Thailand)、Turkish (Türkiye)、Chinese (Mandarin, Simplified)、Chinese (Cantonese, Traditional)、Chinese (Taiwanese Mandarin, Traditional)。

这些多语言语音并不完全支持某些 SSML 元素，例如中断、强调、静音和亚语音。

重要

en-US-JennyMultilingualV2Neural 语音暂时以公共预览版形式提供，仅用于评估目的。未来将会删除。

若要使用英语以外的语言说话，语音的 en-US-JennyMultilingualNeural 当前实现需要设置 <lang xml:lang> 元素。我们预计，在 2023 日历年第 4 季度，en-US-JennyMultilingualNeural 语音将更新为使用输入文本的语言说话，而无需 <lang xml:lang> 元素。这将与 en-US-JennyMultilingualV2Neural 语音相当。

公共预览版中对以下语音推出新功能：

为塞尔维亚语（塞尔维亚）sr-RS 语音添加了拉丁语输入：sr-latn-RS-SophieNeural 和 sr-latn-RS-NicholasNeural。
添加了对阿尔巴尼亚语（阿尔巴尼亚）sq-AL 语音的英语发音支持：sq-AL-AnilaNeural 和 sq-AL-IlirNeural。

2023 年 5 月版本

音频内容创建

所有具有讲话风格的预生成语音和多风格自定义语音都支持风格程度调整。
现在，可以通过说出单词并录制，即可修复单词的发音。可以从录制内容中自动识别音素。 通过语音识别功能现已进入公开预览。

2023 年 4 月版本

预生成的神经网络 TTS 语音

这些语音的以下功能已从公共预览版升级为正式版：

样式	文本转语音声音
style="chat"	`en-GB-RyanNeural`、`es-MX-JorgeNeural` 和 `it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`、`en-GB-SoniaNeural`、`es-MX-JorgeNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural` 和 `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`、`fr-FR-DeniseNeural` 和 `fr-FR-HenriNeural`

改进 hi-IN、ta-IN 和 te-IN 语音的英语发音，目前正在公共预览版区域中进行此工作

有关详细信息，请参阅语言和语音列表。

2023 年 3 月版本

新增功能

语音合成标记语言 (SSML) 已更新，可支持音频效果处理器元素，这些元素可针对设备上的特定方案优化合成语音输出的质量。在语音合成标记中了解详细信息。

神经网络定制声音

添加了对 nl-BE 区域设置使用神经网络定制声音专业版的支持。有关详细信息，请参阅完整的语言和语音列表。

预生成的神经网络 TTS 语音

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`en-AU`	英语（澳大利亚）	`en-AU-AnnetteNeural`（女） `en-AU-CarlyNeural`（女） `en-AU-DarrenNeural`（男） `en-AU-DuncanNeural`（男） `en-AU-ElsieNeural`（女） `en-AU-FreyaNeural`（女） `en-AU-JoanneNeural`（女） `en-AU-KenNeural`（男） `en-AU-KimNeural`（女） `en-AU-NeilNeural`（男） `en-AU-TimNeural`（男） `en-AU-TinaNeural`（女） `en-AU-WilliamNeural`（男）
`en-GB`	英语（英国）	`en-GB-RyanNeural`（男） `en-GB-SoniaNeural`（女）
`es-ES`	西班牙语(西班牙)	`es-ES-AbrilNeural`（女） `es-ES-ArnauNeural`（男） `es-ES-DarioNeural`（男） `es-ES-EliasNeural`（男） `es-ES-EstrellaNeural`（女） `es-ES-IreneNeural`（女） `es-ES-LaiaNeural`（女） `es-ES-LiaNeural`（女） `es-ES-NilNeural`（男） `es-ES-SaulNeural`（男） `es-ES-TeoNeural`（男） `es-ES-TrianaNeural`（女） `es-ES-VeraNeural`（女）
`es-MX`	西班牙语(墨西哥)	`es-MX-JorgeNeural`（男）
`fr-FR`	法语（法国）	`fr-FR-HenriNeural`（男）
`it-IT`	意大利语（意大利）	`it-IT-IsabellaNeural`（女）
`ja-JP`	日语（日本）	`ja-JP-AoiNeural`（女） `ja-JP-DaichiNeural`（男） `ja-JP-MayuNeural`（女） `ja-JP-NaokiNeural`（男） `ja-JP-ShioriNeural`（女）

添加了对 de-DE-ConradNeural 语音的 cheerful 样式的支持。

2023 年 2 月版本

预生成的神经网络 TTS 语音

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`zh-CN`	中文（普通话，简体）	`zh-CN-XiaomengNeural`（女） `zh-CN-XiaoyiNeural`（女） `zh-CN-XiaozhenNeural`（女） `zh-CN-YunfengNeural`（男） `zh-CN-YunhaoNeural`（男） `zh-CN-YunjianNeural`（男） `zh-CN-YunxiaNeural`（男） `zh-CN-YunzeNeural`（男）
`zh-CN-henan`	中文（中原官话河南，简体）	`zh-CN-henan-YundengNeural`（男）

2022 年 12 月版本

批处理合成 REST API（预览版）

批处理合成 API 目前为公共预览版。其正式发布后，就会弃用长音频 API。有关详细信息，请参见迁移到批处理合成 API。

2022 年 11 月版本

预生成的神经网络 TTS 语音 (GA)

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`es-MX`	西班牙语(墨西哥)	`es-MX-BeatrizNeural`（女） `es-MX-CandelaNeural`（女） `es-MX-CarlotaNeural`（女） `es-MX-CecilioNeural`（男） `es-MX-GerardoNeural`（男） `es-MX-LarissaNeural`（女） `es-MX-LibertoNeural`（男） `es-MX-LucianoNeural`（男） `es-MX-MarinaNeural`（女） `es-MX-NuriaNeural`（女） `es-MX-PelayoNeural`（男） `es-MX-RenataNeural`（女） `es-MX-YagoNeural`（男）
`it-IT`	意大利语（意大利）	`it-IT-BenignoNeural`（男） `it-IT-CalimeroNeural`（男） `it-IT-CataldoNeural`（男） `it-IT-FabiolaNeural`（女） `it-IT-FiammaNeural`（女） `it-IT-GianniNeural`（男） `it-IT-ImeldaNeural`（女） `it-IT-IrmaNeural`（女） `it-IT-LisandroNeural`（男） `it-IT-PalmiraNeural`（女） `it-IT-PierinaNeural`（女） `it-IT-RinaldoNeural`（男）
`pt-BR`	葡萄牙语（巴西）	`pt-BR-BrendaNeural`（女） `pt-BR-DonatoNeural`（男） `pt-BR-ElzaNeural`（女） `pt-BR-FabioNeural`（男） `pt-BR-GiovannaNeural`（女） `pt-BR-HumbertoNeural`（男） `pt-BR-JulioNeural`（男） `pt-BR-LeilaNeural`（女） `pt-BR-LeticiaNeural`（女） `pt-BR-ManuelaNeural`（女） `pt-BR-NicolauNeural`（男） `pt-BR-ValerioNeural`（男） `pt-BR-YaraNeural`（女）

神经网络定制声音

为神经网络定制声音添加了以下区域设置支持。有关详细信息，请参阅完整的语言和语音列表。

添加了对 fr-BE 区域设置使用神经网络定制声音专业版的支持。
添加了对 es-ES 区域设置使用神经网络定制声音精简版的支持。

2022 年 10 月版本

预生成的神经网络 TTS 语音 (GA)

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`eu-ES`	巴斯克语	`eu-ES-AinhoaNeural`（女） `eu-ES-AnderNeural`（男）
`hy-AM`	亚美尼亚语（亚美尼亚）	`hy-AM-AnahitNeural`（女） `hy-AM-HaykNeural`（男）

预生成的神经网络 TTS 语音（预览版）

以下语音现在以公共预览版提供。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`en-AU`	英语（澳大利亚）	`en-AU-AnnetteNeural`（女） `en-AU-CarlyNeural`（女） `en-AU-DarrenNeural`（男） `en-AU-DuncanNeural`（男） `en-AU-ElsieNeural`（女） `en-AU-FreyaNeural`（女） `en-AU-JoanneNeural`（女） `en-AU-KenNeural`（男） `en-AU-KimNeural`（女） `en-AU-NeilNeural`（男） `en-AU-TimNeural`（男） `en-AU-TinaNeural`（女）
`es-ES`	西班牙语(西班牙)	`es-ES-AbrilNeural`（女） `es-ES-AlvaroNeural`（男） `es-ES-ArnauNeural`（男） `es-ES-DarioNeural`（男） `es-ES-EliasNeural`（男） `es-ES-EstrellaNeural`（女） `es-ES-IreneNeural`（女） `es-ES-LaiaNeural`（女） `es-ES-LiaNeural`（女） `es-ES-NilNeural`（男） `es-ES-SaulNeural`（男） `es-ES-TeoNeural`（男） `es-ES-TrianaNeural`（女） `es-ES-VeraNeural`（女）
`ja-JP`	日语（日本）	`ja-JP-AoiNeural`（女） `ja-JP-DaichiNeural`（男） `ja-JP-MayuNeural`（女） `ja-JP-NaokiNeural`（男） `ja-JP-ShioriNeural`（女）
`ko-KR`	韩语(韩国)	`ko-KR-BongJinNeural`（男） `ko-KR-GookMinNeural`（男） `ko-KR-JiMinNeural`（女） `ko-KR-SeoHyeonNeural`（女） `ko-KR-SoonBokNeural`（女） `ko-KR-YuJinNeural`（女）
`wuu-CN`	中文（吴语，简体）	`wuu-CN-XiaotongNeural`（女） `wuu-CN-YunzheNeural`（男）
`yue-CN`	中文（粤语，简体）	`yue-CN-XiaoMinNeural`（女） `yue-CN-YunSongNeural`（男）

常规 TTS 语音更新

改进了 fil-PH-AngeloNeural 和 fil-PH-BlessicaNeural 语音的质量。
为区域设置为 es-CL 西班牙语(智利) 和 uz-UZ 乌兹别克语(乌兹别克斯坦) 的语音更新了文本规范化规则。
为区域设置为 sq-AL 阿尔巴尼亚语(阿尔巴尼亚) 和 az-AZ 阿塞拜疆语(阿塞拜疆) 的语音添加了英语字母拼写。
改进了 zh-HK-WanLungNeural 语音的英语发音。
改进了 nl-NL-MaartenNeural和 pt-BR-AntonioNeural 语音的问题语气。
添加了对 <lang ="en-US"> 标记的支持，该标记可以改善以下语音的英语发音：de-DE-ConradNeural、de-DE-KatjaNeural、es-ES-AlvaroNeural、es-MX-DaliaNeural、es-MX-JorgeNeural、fr-CA-SylvieNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-DiegoNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="chat" 标记的支持：en-GB-RyanNeural、es-MX-JorgeNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="cheerful" 标记的支持：en-GB-RyanNeural、en-GB-SoniaNeural、es-MX-JorgeNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="sad" 标记的支持：en-GB-SoniaNeural、fr-FR-DeniseNeural 和 fr-FR-HenriNeural。

2022 年 9 月版本

预生成的神经 TTS 语音

所有预生成神经语音已升级为 48kHz 采样率的高保真语音。

2022 年 8 月版本

预生成的神经 TTS 语音

发布了新语音的公共预览版：

英语（美国）语音：en-US-AIGenerate1Neural 和 en-US-AIGenerate2Neural。
中文区域性语言的语音：zh-CN-henan-YundengNeural、zh-CN-shaanxi-XiaoniNeural 和 zh-CN-shandong-YunxiangNeural。

有关详细信息，请参阅语言和语音列表。

2022 年 7 月版本

预生成的神经 TTS 语音

在公共预览版中添加了 5 种新的 zh-CN 中文（普通话，简体）语音和 1 种新的 en-US 英语（美国）语音。参阅完整语言和语音列表。

语言	Locale	性别	语音名称	风格支持
中文（普通话，简体）	`zh-CN`	Female	`zh-CN-XiaomengNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-CN`	Female	`zh-CN-XiaoyiNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-CN`	Female	`zh-CN-XiaozhenNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-CN`	男	`zh-CN-YunxiaNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-CN`	男	`zh-CN-YunzeNeural` ^新增内容	常规，使用 SSML 提供多种风格
英语（美国）	`en-US`	男	`en-US-RogerNeural` ^新增内容	常规

添加的神经语音的受支持样式和角色。

语音	样式	风格强度	角色
zh-CN-XiaomengNeural ^{公共预览版}	`chat`	支持
zh-CN-XiaoyiNeural ^{公共预览版}	`affectionate`、`angry`、`cheerful`、`disgruntled`、`embarrassed`、`fearful`、`gentle`、`sad`、`serious`	支持
zh-CN-XiaozhenNeural ^{公共预览版}	`angry`、`cheerful`、`disgruntled`、`fearful`、`sad`、`serious`	支持
zh-CN-YunxiaNeural ^{公共预览版}	`angry`、`calm`、`cheerful`、`fearful`、`sad`	支持
zh-CN-YunzeNeural ^{公共预览版}	`angry`、`calm`、`cheerful`、`depressed`、`disgruntled`、`documentary-narration`、`fearful`、`sad`、`serious`	支持	支持

使用视位获取面部位置

添加了对混合形状的支持，以驱动设计的 3D 角色的面部运动。详细了解如何使用视位获取面部位置。
SSML 已更新以支持视位元素。请参阅语音合成标记。

2022 年 6 月版本

预生成的神经 TTS 语音

为神经网络文本转语音添加了 9 种新语言和变体：

语言	Locale	性别	语音名称	风格支持
阿拉伯语（黎巴嫩）	`ar-LB`	女	`ar-LB-LaylaNeural` ^新增内容	常规
阿拉伯语（黎巴嫩）	`ar-LB`	男	`ar-LB-RamiNeural` ^新增内容	常规
阿拉伯语（阿曼）	`ar-OM`	女	`ar-OM-AyshaNeural` ^新增内容	常规
阿拉伯语（阿曼）	`ar-OM`	男	`ar-OM-AbdullahNeural` ^新增内容	常规
阿塞拜疆语（阿塞拜疆）	`az-AZ`	女	`az-AZ-BabekNeural` ^新增内容	常规
阿塞拜疆语（阿塞拜疆）	`az-AZ`	男	`az-AZ-BanuNeural` ^新增内容	常规
波斯尼亚语（波斯尼亚和黑塞哥维那）	`bs-BA`	女	`bs-BA-VesnaNeural` ^新增内容	常规
波斯尼亚语（波斯尼亚和黑塞哥维那）	`bs-BA`	男	`bs-BA-GoranNeural` ^新增内容	常规
格鲁吉亚语（格鲁吉亚）	`ka-GE`	女	`ka-GE-EkaNeural` ^新增内容	常规
格鲁吉亚语（格鲁吉亚）	`ka-GE`	男	`ka-GE-GiorgiNeural` ^新增内容	常规
蒙古语（蒙古）	`mn-MN`	女	`mn-MN-YesuiNeural` ^新增内容	常规
蒙古语（蒙古）	`mn-MN`	男	`mn-MN-BataaNeural` ^新增内容	常规
尼泊尔语（尼泊尔）	`ne-NP`	女	`ne-NP-HemkalaNeural` ^新增内容	常规
尼泊尔语（尼泊尔）	`ne-NP`	男	`ne-NP-SagarNeural` ^新增内容	常规
阿尔巴尼亚语（阿尔巴尼亚）	`sq-AL`	女	`sq-AL-AnilaNeural` ^新增内容	常规
阿尔巴尼亚语（阿尔巴尼亚）	`sq-AL`	男	`sq-AL-IlirNeural` ^新增内容	常规
泰米尔语（马来西亚）	`ta-MY`	女	`ta-MY-KaniNeural` ^新增内容	常规
泰米尔语（马来西亚）	`ta-MY`	男	`ta-MY-SuryaNeural` ^新增内容	常规

en-GB 英语（英国）、fr-FR 法语（法国）和 de-DE 德语（德国）公共预览版的正式发布 36 种声音：

语言	Locale	性别	语音名称	风格支持
英语(英国)	`en-GB`	Female	`en-GB-AbbiNeural`	常规
英语(英国)	`en-GB`	Female	`en-GB-BellaNeural`	常规
英语(英国)	`en-GB`	Female	`en-GB-HollieNeural`	常规
英语(英国)	`en-GB`	Female	`en-GB-MaisieNeural`	常规，童声
英语（英国）	`en-GB`	Female	`en-GB-OliviaNeural`	常规
英语(英国)	`en-GB`	Female	`en-GB-SoniaNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-AlfieNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-ElliotNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-EthanNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-NoahNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-OliverNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-ThomasNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-BrigitteNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-CelesteNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-CoralieNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-EloiseNeural`	常规，童声
法语（法国）	`fr-FR`	Female	`fr-FR-JacquelineNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-JosephineNeural`	常规
法语（法国）	`fr-FR`	Female	`fr-FR-YvetteNeural`	常规
法语（法国）	`fr-FR`	男	`fr-FR-AlainNeural`	常规
法语（法国）	`fr-FR`	男	`fr-FR-ClaudeNeural`	常规
法语（法国）	`fr-FR`	男	`fr-FR-JeromeNeural`	常规
法语（法国）	`fr-FR`	男	`fr-FR-MauriceNeural`	常规
法语（法国）	`fr-FR`	男	`fr-FR-YvesNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-AmalaNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-ElkeNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-GiselaNeural`	常规，童声
德语（德国）	`de-DE`	Female	`de-DE-KlarissaNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-LouisaNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-MajaNeural`	常规
德语（德国）	`de-DE`	Female	`de-DE-TanjaNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-BerndNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-ChristophNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KasperNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KillianNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KlausNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-RalfNeural`	常规

在公共预览版中添加了 40 种新语音，包括 es-MX 西班牙语（墨西哥）、it-IT 意大利语（意大利）、pt-BR 葡萄牙语（巴西）和 2 种 zh-CN 中文口音（普通话、简体）的语音：

语言	Locale	性别	语音名称	风格支持
西班牙语（墨西哥）	`es-MX`	女	`es-MX-BeatrizNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-CarlotaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-NuriaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-RenataNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-LarissaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-CandelaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-MarinaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-FiammaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-IrmaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-FabiolaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-PalmiraNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-ImeldaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	Female	`it-IT-PierinaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-ElzaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-ManuelaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-BrendaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-LeilaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-YaraNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-GiovannaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-LeticiaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-CecilioNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-LibertoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-LucianoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-PelayoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-YagoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-GerardoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-BenignoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-CataldoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-LisandroNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-CalimeroNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-RinaldoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-GianniNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-DonatoNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-HumbertoNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-FabioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-JulioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-ValerioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-NicolauNeural` ^新增内容	常规
中文（普通话，简体）	`zh-CN-sichuan`	男	`zh-CN-sichuan-YunxiSichuanNeural` ^新增内容	常规，四川口音
中文（普通话，简体）	`zh-CN-liaoning`	Female	`zh-CN-liaoning-XiaobeiNeural` ^新增内容	常规，辽宁口音

改进了 en-SG-LunaNeural 和 en-SG-WayneNeural 的质量
48kHz 输出支持公共预览版，其中包含 en-US-JennyNeural、en-US-AriaNeural 和 zh-CN-XiaoxiaoNeural

神经网络定制声音

启用后即可联机修复数据问题。详细了解如何解决 Speech Studio 中的数据问题。
添加了训练方案版本。详细了解如何为语音模型选择训练方案版本。

有声内容创作工具

支持分页。
启用此项即可以全局方式按工作文件页上的名称、文件类型和更新时间排序。

2022 年 5 月版本

预生成的神经 TTS 语音

在公共预览版中发布了 5 种新声音，这些声音有多种风格，可以丰富美国英语的多样性。参阅完整语言和语音列表。
en-US-AriaNeural 的公共预览版支持这些新风格：Angry、Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified 和 Whispering。
en-US-GuyNeural、en-US-JennyNeural 的公共预览版支持这些新风格：Angry、Cheerful、Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified 和 Whispering。
en-US-SaraNeural 的公共预览版支持这些新风格：Excited、Friendly、Hopeful、Shouting、Unfriendly、Terrified 和 Whispering。请参阅语音风格和角色。
发布了新语音 zh-CN-YunjianNeural、zh-CN-YunhaoNeural 和 zh-CN-YunfengNeural 的公共预览版。参阅完整语言和语音列表。
zh-CN-YunjianNeural 的公共预览版支持 2 个新样式：sports-commentary、sports-commentary-excited。请参阅语音风格和角色。
zh-CN-YunhaoNeural 的公共预览版支持 1 个新样式：advertisement-upbeat。请参阅语音风格和角色。
fr-FR-DeniseNeural 支持的样式 cheerful 和 sad 在所有区域中都已正式发布。
SSML 已更新以支持 en-US 和 en-AU 语音的 MathML 元素。在语音合成标记中了解详细信息。

神经网络定制声音

启用此项即可在训练语音模型期间取消训练。详细了解如何取消训练。
启用此项即可克隆模型（重命名语音模型）。详细了解如何重命名语音模型。
启用此项即可通过添加你自己的测试脚本来测试语音模型。详细了解如何上传测试脚本。
启用此项即可更新语音模型的引擎版本。详细了解如何更新模型引擎版本。
支持更多训练区域。请参阅区域支持。
神经网络定制声音精简版（预览版）支持的 10 个区域设置。请参阅语言支持。

有声内容创作工具

启用此项后，无需登录即可试用有声内容创作工具。
改进了用于调整音素的布局。
增强性能：指定了一次上传文件的最大数目 (200)。
增强性能：指定了最大目录深度级别（5 个级别）。

2022 年 3 月版本

预生成的神经 TTS 语音

公共预览版中为 fr-FR-DeniseNeural 增加了对 Cheerful 和 Sad 样式的支持。请参阅语音风格和角色。
针对预生成的神经 TTS 语音发布了公共预览版的断开连接容器。请参阅在断开连接的环境中使用 Docker 容器。

神经网络定制声音

支持基于角色的访问控制。参阅 Speech Studio 中 Azure 基于角色的访问控制来详细了解。
支持专用终结点和虚拟网络服务终结点。参阅如何将专用终结点与语音服务结合使用来详细了解。

有声内容创作工具

更新了免费层 (F0) 资源的文件大小和并发限制，以获得与语音 SDK 和 API 一致的体验。请参阅语音服务配额和限制。

2022 年 2 月版本

神经网络定制声音

发布了公共预览版的神经网络定制声音精简版。详细了解什么是神经网络定制声音精简版。
将语言支持扩展到了 49 个区域设置。请参阅语言支持。
支持更多区域/数据中心。请参阅区域支持。

有声内容创作工具

删除了下载音频时的输出长度限制。

2022 年 1 月版本

新语言和语音

为神经网络文本转语音添加了 10 种新语言和变体：

语言	Locale	性别	语音名称	风格支持
孟加拉语（印度）	`bn-IN`	女	`bn-IN-TanishaaNeural` ^新增内容	常规
孟加拉语（印度）	`bn-IN`	男	`bn-IN-BashkarNeural` ^新增内容	常规
冰岛语（冰岛）	`is-IS`	女	`is-IS-GudrunNeural` ^新增内容	常规
冰岛语（冰岛）	`is-IS`	男	`is-IS-GunnarNeural` ^新增内容	常规
卡纳达语（印度）	`kn-IN`	女	`kn-IN-SapnaNeural` ^新增内容	常规
卡纳达语（印度）	`kn-IN`	男	`kn-IN-GaganNeural` ^新增内容	常规
哈萨克语（哈萨克斯坦）	`kk-KZ`	女	`kk-KZ-AigulNeural` ^新增内容	常规
哈萨克语（哈萨克斯坦）	`kk-KZ`	男	`kk-KZ-DauletNeural` ^新增内容	常规
老挝语(老挝)	`lo-LA`	女	`lo-LA-KeomanyNeural` ^新增内容	常规
老挝语(老挝)	`lo-LA`	男	`lo-LA-ChanthavongNeural` ^新增内容	常规
马其顿语（北马其顿共和国）	`mk-MK`	女	`mk-MK-MarijaNeural` ^新增内容	常规
马其顿语（北马其顿共和国）	`mk-MK`	男	`mk-MK-AleksandarNeural` ^新增内容	常规
马拉雅拉姆语（印度）	`ml-IN`	女	`ml-IN-SobhanaNeural` ^新增内容	常规
马拉雅拉姆语（印度）	`ml-IN`	男	`ml-IN-MidhunNeural` ^新增内容	常规
普什图语（阿富汗）	`ps-AF`	女	`ps-AF-LatifaNeural` ^新增内容	常规
普什图语（阿富汗）	`ps-AF`	男	`ps-AF-GulNawazNeural` ^新增内容	常规
塞尔维亚语（塞尔维亚，西里尔语）	`sr-RS`	女	`sr-RS-SophieNeural` ^新增内容	常规
塞尔维亚语（塞尔维亚，西里尔语）	`sr-RS`	男	`sr-RS-NicholasNeural` ^新增内容	常规
僧伽罗语（斯里兰卡）	`si-LK`	女	`si-LK-ThiliniNeural` ^新增内容	常规
僧伽罗语（斯里兰卡）	`si-LK`	男	`si-LK-SameeraNeural` ^新增内容	常规

有关可用语音的完整列表，请参阅语言支持。

新语音（预览版）

在预览版中为 en-GB、fr-FR 和 de-DE 添加了新语音：

语言	Locale	性别	语音名称	风格支持
英语(英国)	`en-GB`	Female	`en-GB-AbbiNeural` ^新增内容	常规
英语(英国)	`en-GB`	Female	`en-GB-BellaNeural` ^新增内容	常规
英语(英国)	`en-GB`	Female	`en-GB-HollieNeural` ^新增内容	常规
英语(英国)	`en-GB`	Female	`en-GB-OliviaNeural` ^新增内容	常规
英语（英国）	`en-GB`	女孩	`en-GB-MaisieNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-AlfieNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-ElliotNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-EthanNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-NoahNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-OliverNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-ThomasNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-BrigitteNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-CelesteNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-CoralieNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-JacquelineNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-JosephineNeural` ^新增内容	常规
法语（法国）	`fr-FR`	Female	`fr-FR-YvetteNeural` ^新增内容	常规
法语（法国）	`fr-FR`	女孩	`fr-FR-EloiseNeural` ^新增内容	常规
法语（法国）	`fr-FR`	男	`fr-FR-AlainNeural` ^新增内容	常规
法语（法国）	`fr-FR`	男	`fr-FR-ClaudeNeural` ^新增内容	常规
法语（法国）	`fr-FR`	男	`fr-FR-JeromeNeural` ^新增内容	常规
法语（法国）	`fr-FR`	男	`fr-FR-MauriceNeural` ^新增内容	常规
法语（法国）	`fr-FR`	男	`fr-FR-YvesNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-AmalaNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-ElkeNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-KlarissaNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-LouisaNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-MajaNeural` ^新增内容	常规
德语（德国）	`de-DE`	Female	`de-DE-TanjaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女孩	`de-DE-GiselaNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-BerndNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-ChristophNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KasperNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KillianNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KlausNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-RalfNeural` ^新增内容	常规

有关可用语音的完整列表，请参阅语言支持。

发音准确度

改进了所有 he-IL 语音的英语单词发音。
为 cs-CZ 和 da-DK 改进了单词级别的发音准确度。
改进了阿拉伯语音调符号和希伯来语 Nikud 处理。
为 ja-JP 改进了实体读取

Speech Studio

神经网络定制声音：使用批处理 API（长音频 API）启用了其他模型测试
有声内容创作：启用了更多输出格式

2021 年 10 月版本

新语言和语音

为神经网络文本转语音添加了 49 种新语言和 98 种语音：

Adri af-ZA 南非语（南非）、Willem af-ZA 南非语（南非）、Mekde am-ET 阿姆哈拉语（埃塞俄比亚）、Ameha am-ET 阿姆哈拉语（埃塞俄比亚）、Fatima ar-AE 阿拉伯语（阿拉伯联合酋长国）、Hamdan ar-AE 阿拉伯语（阿拉伯联合酋长国）、Laila ar-BH 阿拉伯语（巴林）、Ali ar-BH 阿拉伯语（巴林）、Amina ar-DZ 阿拉伯语（阿尔及利亚）、Ismael ar-DZ 阿拉伯语（阿尔及利亚）、Rana ar-IQ 阿拉伯语（伊拉克）、Bassel ar-IQ 阿拉伯语（伊拉克）、Sana ar-JO 阿拉伯语（约旦）、Taim ar-JO 阿拉伯语（约旦）、Noura ar-KW 阿拉伯语（科威特）、Fahed ar-KW 阿拉伯语（科威特）、Iman ar-LY 阿拉伯语（利比亚）、Omar ar-LY 阿拉伯语（利比亚）、Mouna ar-MA 阿拉伯语（摩洛哥）、Jamal ar-MA 阿拉伯语（摩洛哥）、Amal ar-QA 阿拉伯语（卡塔尔）、Moaz ar-QA 阿拉伯语（卡塔尔）、Amany ar-SY 阿拉伯语（叙利亚）、Laith ar-SY 阿拉伯语（叙利亚）、Reem ar-TN 阿拉伯语（突尼斯）、Hedi ar-TN 阿拉伯语（突尼斯）、Maryam ar-YE 阿拉伯语（也门）、Saleh ar-YE 阿拉伯语（也门）、Nabanita bn-BD 孟加拉语（孟加拉国）、Pradeep bn-BD 孟加拉语（孟加拉国）、Asilia en-KE 英语（肯尼亚）、Chilemba en-KE 英语（肯尼亚）、Ezinne en-NG 英语（尼日利亚）、Abeo en-NG 英语（尼日利亚）、Imani en-TZ 英语（坦桑尼亚）、Elimu en-TZ 英语（坦桑尼亚）、Sofia es-BO 西班牙语（玻利维亚）、Marcelo es-BO 西班牙语（玻利维亚）、Catalina es-CL 西班牙语（智利）、Lorenzo es-CL 西班牙语（智利）、Maria es-CR 西班牙语（哥斯达黎加）、Juan es-CR 西班牙语（哥斯达黎加）、Belkys es-CU 西班牙语（古巴）、Manuel es-CU 西班牙语（古巴）、Ramona es-DO 西班牙语（多米尼加共和国）、Emilio es-DO 西班牙语（多米尼加共和国）、Andrea es-EC 西班牙语（厄瓜多尔）、Luis es-EC 西班牙语（厄瓜多尔）、Teresa es-GQ 西班牙语（赤道几内亚）、Javier es-GQ 西班牙语（赤道几内亚）、Marta es-GT 西班牙语（危地马拉）、Andres es-GT 西班牙语（危地马拉）、Karla es-HN 西班牙语（洪都拉斯）、Carlos es-HN 西班牙语（洪都拉斯）、Yolanda es-NI 西班牙语（尼加拉瓜）、Federico es-NI 西班牙语（尼加拉瓜）、Margarita es-PA 西班牙语（巴拿马）、Roberto es-PA 西班牙语（巴拿马）、Camila es-PE 西班牙语（秘鲁）、Alex es-PE 西班牙语（秘鲁）、Karina es-PR 西班牙语（波多黎各）、Victor es-PR 西班牙语（波多黎各）、Tania es-PY 西班牙语（巴拉圭）、Mario es-PY 西班牙语（巴拉圭）、Lorena es-SV 西班牙语（萨尔瓦多）、Rodrigo es-SV 西班牙语（萨尔瓦多）、Valentina es-UY 西班牙语（乌拉圭）、Mateo es-UY 西班牙语（乌拉圭）、Paola es-VE 西班牙语（委内瑞拉）、Sebastian es-VE 西班牙语（委内瑞拉）、Dilara fa-IR 波斯语（伊朗）、Farid fa-IR 波斯语（伊朗）、Blessica fil-PH 菲律宾语（菲律宾）、Angelo fil-PH 菲律宾语（菲律宾）、Sabela gl-ES 加利西亚语、Roi gl-ES 加利西亚语、Siti jv-ID 爪哇语（印度尼西亚）、Dimas jv-ID 爪哇语（印度尼西亚）、Sreymom km-KH 高棉语（柬埔寨）、Piseth km-KH 高棉语（柬埔寨）、Nilar my-MM 缅甸语（缅甸）、Thiha my-MM 缅甸语（缅甸）、Ubax so-SO 索马里语（索马里）、Muuse so-SO 索马里语（索马里）、Tuti su-ID 巽他语（印度尼西亚）、Jajang su-ID 巽他语（印度尼西亚）、Rehema sw-TZ 斯瓦希里语（坦桑尼亚）、Daudi sw-TZ 斯瓦希里语（坦桑尼亚）、Saranya ta-LK 泰米尔语（斯里兰卡）、Kumar ta-LK 泰米尔语（斯里兰卡）、Venba ta-SG 泰米尔语（新加坡）、Anbu ta-SG 泰米尔语（新加坡）、Gul ur-IN 乌尔都语（印度）、Salman ur-IN 乌尔都语（印度）、Madina uz-UZ 乌兹别克语（乌兹别克斯坦）、Sardor uz-UZ 乌兹别克语（乌兹别克斯坦）、Thando zu-ZA 祖鲁语（南非）、Themba zu-ZA 祖鲁语（南非）。

2021 年 9 月版本

新的聊天机器人语音（en-US英语（美国））：Sara 表示一位年轻女性，其说话风格更随意，最适合聊天机器人场景。
为 ja-JP 日语语音 Nanami 添加的新样式：Nanami 现在提供三种新样式：聊天、客户服务和快乐。
整体发音改进：Ardi id-ID、Premwadee th-TH、Christel da-DK、HoaiMy 和 NamMinh vi-VN。
预览版中的两个新语音 zh-CN 中文（普通话）：小陈和小燕，针对自发语音和客户服务场景进行了优化。

2021 年 7 月版本

神经网络文本转语音更新

希伯来语减少了 20% 的发音错误。

Speech Studio 更新

神经网络定制声音：将训练管道更新为 UniTTSv3，通过此次更新，模型质量得到了改进，同时，声学模型的训练时间减少了 50%。
音频内容创建：修复了“导出”性能问题和自定义神经语音选择方面的 bug。

2021 年 6 月版本

Speech Studio 更新

神经网络定制声音：扩展了神经网络定制声音训练以支持东南亚。发布了支持检查数据上传状态的新功能。
音频内容创建：发布了支持自定义词典的新功能。利用此功能，用户可以轻松地创建其词典文件，并为其音频输出定义自定义发音。

2021 年 5 月版本

为神经 TTS 添加的新语言和语音

引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音，分别为：Yan en-HK 英语（香港），Sam en-HK 英语（香港），Molly en-NZ 英语（新西兰），Mitchell en-NZ 英语（新西兰），Luna en-SG 英语（新加坡），Wayne en-SG 英语（新加坡），Leah en-ZA 英语（南非），Luke en-ZA 英语（南非），Dhwani gu-IN 古吉拉特语（印度），Niranjan gu-IN 古吉拉特语（印度），Aarohi mr-IN 马拉地语（印度），Manohar mr-IN 马拉地语（印度），Elena es-AR 西班牙语（阿根廷），Tomas es-AR 西班牙语（阿根廷），Salome es-CO 西班牙语（哥伦比亚），Gonzalo es-CO 西班牙语（哥伦比亚），Paloma es-US 西班牙语（美国），Alonso es-US 西班牙语（美国），Zuri sw-KE 斯瓦希里语（肯尼亚），Rafiki sw-KE 斯瓦希里语（肯尼亚）。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中，分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种zh-CN中文（普通话，简体中文）语音正式发布 - 5 种中文（普通话，简体中文）语音从预览版转为正式发布。分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。现在，这些语音在所有区域都可以使用。 Yunxi 添加了一种新的“助手”风格，适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进，更加自然和富有特色。

2021 年 4 月版本

神经网络文本转语音已在 21 个区域中可用

添加了十二个新区域 - 神经网络文本转语音现在可用于以下 12 个新区域：Japan East、Japan West、Korea Central、North Central US、North Europe、South Central US、Southeast Asia、UK South、west Central US、West Europe、West US、West US 2。查看此处，了解 21 个受支持区域的完整列表。

2021 年 3 月版本

为神经 TTS 添加的新语言和语音

引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音：cy-GB 威尔士语(英国) 中的 Nia、cy-GB 威尔士语(英国) 中的 Aled、en-PH 英语(菲律宾) 中的 Rosa、en-PH 英语(菲律宾) 中的 James、fr-BE 法语(比利时) 中的 Charline、fr-BE 法语(比利时) 中的 Gerard、nl-BE 荷兰语(比利时) 中的 Dena、nl-BE 荷兰语(比利时) 中的 Arnaud、uk-UA 乌克兰语(乌克兰) 中的 Polina、uk-UA 乌克兰语(乌克兰) 中的 Ostap、ur-PK 乌尔都语(巴基斯坦) 中的 Uzma、ur-PK 乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布：et-EE 爱沙尼亚语(爱沙尼亚) 中的 Kert、ga-IE 爱尔兰语(爱尔兰) 中的 Colm、lv-LV 拉脱维亚语(拉脱维亚) 中的 Nils、lt-LT 立陶宛语(立陶宛) 中的 Leonas、mt-MT 马耳他语(马耳他) 中的 Joseph。
为法语(加拿大) 添加了新的男性语音 - 现在为 fr-CA 法语(加拿大) 提供了新语音 Antoine。
质量改进 - 降低了语音错误率：hu-HU 匈牙利语 - 48.17%、nb-NO 挪威语 - 52.76%、nl-NL 荷兰语(荷兰) - 22.11%。

此发行版现在支持 60 种语言/区域设置的总共 142 种神经语音。此外，可在 49 种语言/区域设置中使用超过 70 种的标准语音。有关完整列表，请访问语言支持。

获取人脸姿态事件以创建角色动画

神经网络文本转语音现在包含视素事件。使用视素事件，用户可获取人脸姿态序列和合成语音。视素可以用来控制 2D 和 3D 头像模型的运动，使嘴巴的运动与合成的语音匹配。视素事件目前仅适用于 en-US-AriaNeural 语音。

以语音合成标记语言 (SSML) 添加 bookmark 元素

使用 bookmark 元素可以在 SSML 中插入自定义标记，以获得音频流中每个标记的偏移量。它可用于引用文本或标记序列中的特定位置。

2021 年 2 月版本

神经网络定制声音正式发布

2 月份以 13 种语言正式发布了神经网络定制声音：中文(普通话，简体)、英语(澳大利亚)、英语(印度)、英语(英国)、英语(美国)、法语(加拿大)、法语(法国)、德语(德国)、意大利语(意大利)、日语(日本)、韩语(韩国)、葡萄牙语(巴西)、西班牙语(墨西哥)、西班牙语(西班牙)。详细了解什么是神经网络定制声音以及如何负责任地使用它。神经网络定制声音功能需要注册。Microsoft 可能会根据 Microsoft 的资格条件限制访问权限。详细了解受限访问。

2020 年 12 月版本

正式版和预览版中的新神经语音

为 54 种语言/区域设置中的总共 129 种神经语音发布了 51 种新语音：

正式版区域设置中的 46 种新语音：ar-EG 阿拉伯语（埃及）中的 Shakir、ar-SA 阿拉伯语（沙特阿拉伯）中的 Hamed、bg-BG 保加利亚语（保加利亚）中的 Borislav、ca-ES 加泰罗尼亚语中的 Joana、cs-CZ 捷克语（捷克共和国）中的 Antonin、da-DK 丹麦语（丹麦）中的 Jeppe、de-AT 德语（澳大利亚）中的 Jonas、de-CH 德语（瑞士）中的 Jan、el-GR 希腊语（希腊）中的 Nestoras、en-CA 英语（加拿大）中的 Liam、en-IE 英语（爱尔兰）中的 Connor、en-IN 印地语（印度）中的 Madhur、en-IN 泰卢固语（印度）中的 Mohan、en-IN 英语（印度）中的 Prabhat、en-IN 泰米尔语（印度）中的 Valluvar、es-ES 加泰罗尼亚语中的 Enric、et-EE 爱沙尼亚语（爱沙尼亚）中的 Kert、fi-FI 芬兰语（芬兰）中的 Harri、fi-FI 芬兰语（芬兰）中的 Selma、fr-CH 法语（瑞士）中的 Fabrice、ga-IE 爱尔兰语（爱尔兰）中的 Colm、he-IL 希伯来语（以色列）中的 Avri、hr-HR 克罗地亚语（克罗地亚）中的 Srecko、hu-HU 匈牙利语（匈牙利）中的 Tamas、id-ID 印度尼西亚语（印度尼西亚）中的 Gadis、lt-LT 立陶宛语（立陶宛）中的 Leonas、lv-LV 拉脱维亚语（拉脱维亚）中的 Nils、ms-MY 马来语（马来西亚）中的 Osman、mt-MT 马耳他语（马耳他）中的 Joseph、nb-NO 挪威语、博克马尔语（挪威）中的 Finn、nb-NO 挪威语、博克马尔语（挪威）中的 Pernille、nl-NL 荷兰语（荷兰）的 Fenna、nl-NL 荷兰语（荷兰）中的 Maarten、pl-PL 波兰语（波兰）中的 Agnieszka、pl-PL 波兰语（波兰）中的 Marek、pt-BR 葡萄牙语（巴西）中的 Duarte、pt-PT 葡萄牙语（葡萄牙）中的 Raquel、ro-RO 罗马尼亚语（罗马尼亚）中的 Emil、ru-RU 俄语（俄罗斯）中的 Dmitry、ru-RU 俄语（俄罗斯）中的 Svetlana、sk-SK 斯洛伐克语（斯洛伐克）中的 Lukas、sl-SI 斯洛文尼亚语（斯洛文尼亚）中的 Rok、sv-SE 瑞典语（瑞典）中的 Mattias、sv-SE 瑞典语（瑞典）中的 Sofie、th-TH 泰语（泰国）中的 Niwat、tr-TR 土耳其语（土耳其）中的 Ahmet、vi-VN 越南语（越南）中的 NamMinh、zh-TW 台湾普通话（台湾）中的 HsiaoChen、zh-TW 台湾普通话（台湾）中的 YunJhe、zh-HK 粤语（香港特別行政区）中的 HiuMaan、zh-HK 粤语（香港特別行政区）中的 WanLung。
预览版区域设置中的 5 种新语音：et-EE 爱沙尼亚语（爱沙尼亚）中的 Kert、ga-IE 爱尔兰语（爱尔兰）中的 Colm、lv-LV 拉脱维亚语（拉脱维亚）中的 Nils、lt-LT 立陶宛语（立陶宛）中的 Leonas、mt-MT 马耳他语（马耳他）中的 Joseph。

此发行版现在支持 54 种语言/区域设置中的总共 129 种神经语音。此外，可在 49 种语言/区域设置中使用超过 70 种的标准语音。有关完整列表，请访问语言支持。

音频内容创建的更新

通过语音类别和详细的语音说明改善了语音选择 UI。
针对不同语言的所有神经语音启用了语调优化。
根据浏览器的语言自动执行了 UI 本地化。
已为所有 zh-CN 神经语音启用 StyleDegree 控件。若要查看新功能，请访问音频内容创建工具。

zh-CN 语音的更新

已更新所有 zh-CN 神经语音以支持英语。
已启用所有 zh-CN 神经语音以支持语调调整。可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
已更新所有 zh-CN 多样式神经语音以支持 StyleDegree 控件。可调整情感强度（弱或强）。
已更新 zh-CN-YunyeNeural 以支持可以执行不同情感的多种风格。

2020 年 11 月版本

预览版中的新区域设置和语音

神经网络文本转语音项目组合中引入了五种新语音和语言。分别是：马耳他语（马耳他）中的 Grace、立陶宛语（立陶宛）中的 Ona、爱沙尼亚语（爱沙尼亚）中的 Anu、爱尔兰语（爱尔兰）中的 Orla、拉脱维亚语（拉脱维亚）中的 Everita。
五种新的 zh-CN 语音，支持多个样式和角色：Xiaohan、Xiaomo、Xiaorui、Xiaoxuan 和 Yunxi。

在以下三个 Azure 区域的公共预览版中可以使用这些语音：EastUS、SouthEastAsia 和 WestEurope。

神经网络文本转语音容器 GA

借助神经网络文本转语音容器，开发人员可以在自己的环境中使用最自然的数字语音运行语音合成，以满足特定的安全和数据治理需求。查看如何安装语音容器。

新增功能

定制声音：使用户能够将语音模型从一个区域复制到另一个区域；支持终结点暂停和恢复。转到此处的 Azure 门户。
支持 SSML 无声标记。
一般性的 TTS 语音质量改进：在 nb-NO 中改进了单词级别的发音准确度。将发音错误减小了 53%。

有关详细信息，请参阅此技术博客。

2020 年 10 月版本

新增功能

Jenny 支持新的 newscast 样式。请参阅如何在 SSML 中使用说话风格。
神经语音已升级为 HiFiNet vocoder，具有更高的音频保真度和更快的合成速度。这使那些方案依赖于高保真音频或长时间交互（包括视频翻译、有声书籍或在线教育材料）的客户受益。在我们的技术社区博客上详细了解该内容并收听语音样本
定制声音和音频内容创建工作室本地化为 17 个区域设置。用户可以轻松地将 UI 切换为本地语言，以获得更好的体验。
音频内容创建：为 XiaoxiaoNeural 添加了样式度控件；优化了自定义中断功能，使之包括 50 毫秒的增量中断。

一般性的 TTS 语音质量改进

提高了以下语言单词级别发音的准确度：pl-PL（错误率降低：51%）和 fi-FI（错误速率降低：58%）
改进了字典方案的 ja-JP 单个字词阅读功能。将发音错误减小了 80%。
zh-CN-XiaoxiaoNeural：改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
zh-CN：改进了儿化音发音和轻声，优化了空间韵律，从而大大提高了清晰度。

2020 年 9 月版本

新增功能

神经网络文本转语音
- 已经过扩展以支持 18 种新的语言/区域设置， 它们分别是：保加利亚语、捷克语、德语（奥地利）、德语（瑞士）、希腊语、英语（爱尔兰）、法语（瑞士）、希伯来语、克罗地亚语、匈牙利语、印度尼西亚语、马来语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、泰米尔语、泰卢固语和越南语。
- 发布了 14 种新语音，以丰富现有语言的多样性。 参阅完整语言和语音列表。
- en-US 和 zh-CN 语音的新说话风格。 英语（美国）区域设置中的 Jenny 支持聊天机器人、客户服务和助理说话风格。简体中文语音 XiaoXiao 有 10 种新的说话风格可用。此外，XiaoXiao 神经语音支持 StyleDegree 优化。请参阅如何在 SSML 中使用说话风格。
容器：已发布公共预览版神经网络文本转语音容器，其中提供了 14 种语言的 16 种语音。 详细了解如何部署用于神经网络文本转语音的语音容器

阅读 Ignite 2020 TTS 更新的完整公告

2020 年 8 月版本

新增功能

神经网络文本转语音：为 en-US Aria 语音添加了新的说话风格。播报新闻时，AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃，而“newscast-casual”风格则更为放松和随意。请参阅如何在 SSML 中使用说话风格。
定制声音：发布了一项新功能以自动检查训练数据质量。当你上传数据时，系统将检查音频和脚本数据的各个方面，并自动修复或筛选问题，以提高语音模型的质量。这涉及到音频音量、噪声级别、语音的发音准确度、语音与规范化文本的相符程度、音频中的沉默，以及音频和脚本格式。
音频内容创建：一组新功能，可实现更强大的语音优化和音频管理功能。
- 发音：将发音优化功能更新为最新的音素集。可以从库中选取正确的音素元素，并优化所选字词的发音。
- 下载：音频“下载”/“导出”这一功能得到增强，支持按段落生成音频。可以编辑同一文件/SSML 中的内容，同时生成多个音频输出。 “下载”的文件结构也得到了完善。现在，可以轻松将所有音频文件保存在一个文件夹中。
- 任务状态：多文件导出体验得到改善。过去导出多个文件时，如果其中一个文件失败，则整个任务将失败。但现在，所有其余文件都将成功导出。任务报表中包含了更加详细和结构化的信息。可以通过报表查看所有失败文件和句子的记录。
- SSML 文档：链接到 SSML 文档，有助于查看有关如何使用所有优化功能的规则。
语音列表 API 已更新，现包含易记的显示名称和神经网络语音支持的说话风格。

一般性的 TTS 语音质量改进

降低了单词级别发音错误 %：ru-RU（错误减少 56%）、sv-SE（错误减少 49%）
对 en-US 神经网络语音的复音词读取能力提高了 40%。复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使 fr-FR 中的疑问语气更加自然。 MOS（平均意见得分）增益：+0.28
更新了以下语音的 vocoder，提高了保真度，整体性能提高 40%。

Locale 语音

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Locale	语音
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Bug 修复

修复了音频内容创建工具的一些 Bug
- 修复了自动刷新问题。
- 修复了东南亚区域中 zh-CN 的语音风格问题。
- 修复了稳定性问题，包括“break”标记的导出错误和标点错误。

2024 年 11 月版本

语音转文本 REST API 版本 2024-11-15

语音转文本 REST API 版本 2024-11-15 已正式发布。有关详细信息，请参阅语音转文本 REST API 参考文档和语音转文本 REST API 指南。

注意

语音转文本 REST API 版本 2024-05-15-preview 已弃用。

快速听录 (GA)

快速听录现已通过语音转文本 REST API 版本 2024-11-15 正式发布。借助快速听录，可以使用高速系数准确同步地将音频文件转录为文本。它可以比实际音频持续时间更快地听录音频。有关详细信息，请参阅快速听录 API 指南。

2024 年 10 月版本

实时语音转文本（双语）

通过 es-US 双语模型，对短西班牙语术语的识别质量有了显著改善。该模型是双语的，也支持英语。英语识别的质量也得到了提高。

视频翻译（预览版）

视频翻译 API 现已推出公共预览版。有关详细信息，请参阅如何使用视频翻译。

2024 年 9 月版本

实时语音转文本

实时语音转文本发布了以下语言的新模型，质量更佳。

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

快速听录（预览版）

快速听录现在支持差异化以识别和区分单声道音频文件中的多个说话者。有关详细信息，请参阅快速听录 API 指南。

2024 年 8 月版本

语言学习（预览版）

语言学习现在以公共预览版提供。交互式语言学习可让你的学习体验变得更加有趣和有效。有关详细信息，请参阅带有发音评估的交互式语言学习。

发音评估

语音发音评估现在支持 33 种正式发布的语言，每种语言均可在所有语音转文本区域使用。有关详细信息，请参阅发音评估的完整语言列表。

语言	区域设置 (BCP-47)
阿拉伯语（埃及）	`ar-EG`
阿拉伯语(沙特阿拉伯)	`ar-SA`
加泰罗尼亚语	`ca-ES`
中文(粤语，繁体)	`zh-HK`
中文（普通话，简体）	`zh-CN`
中文（台湾普通话，繁体）	`zh-TW`
丹麦语（丹麦）	`da-DK`
荷兰语（荷兰）	`nl-NL`
英语（澳大利亚）	`en-AU`
英语（加拿大）	`en-CA`
英语（印度）	`en-IN`
英语（英国）	`en-GB`
英语（美国）	`en-US`
芬兰语（芬兰）	`fi-FI`
法语（加拿大）	`fr-CA`
法语（法国）	`fr-FR`
德语（德国）	`de-DE`
印地语（印度）	`hi-IN`
意大利语（意大利）	`it-IT`
日语（日本）	`ja-JP`
韩语(韩国)	`ko-KR`
马来语（马来西亚）	`ms-MY`
书面挪威语（挪威）	`nb-NO`
波兰语（波兰）	`pl-PL`
葡萄牙语（巴西）	`pt-BR`
葡萄牙语（葡萄牙）	`pt-PT`
俄语（俄罗斯）	`ru-RU`
西班牙语(墨西哥)	`es-MX`
西班牙语(西班牙)	`es-ES`
瑞典语（瑞典）	`sv-SE`
泰米尔语（印度）	`ta-IN`
泰语（泰国）	`th-TH`
越南语(越南)	`vi-VN`

2024 年 7 月版本

快速听录 API（预览版）

快速听录现在以公共预览版提供。借助快速听录，可以使用高速系数准确同步地将音频文件转录为文本。它可以比实际音频持续时间更快地听录音频。有关详细信息，请参阅快速听录 API 指南。

提示

在 Azure AI Foundry 门户中试用快速听录。

2024 年 6 月版本

语音转文本 REST API v3.2 正式发布

语音转文本 REST API 版本 3.2 现已正式发布。有关语音转文本 REST API v3.2 的详细信息，请参阅语音转文本 REST API v3.2 参考文档和语音转文本 REST API 指南。

注意

预览版 3.2-preview.1 和 3.2-preview.2 于 2024 年 9 月停用。

语音转文本 REST API v3.1 即将停用，具体日期有待宣布。语音转文本 REST API v3.0 将于 2026 年 4 月 1 日停用。有关升级的详细信息，请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。

2024 年 5 月版本

视频翻译（预览版）

视频翻译现已推出公共预览版。视频翻译是 Azure AI 语音中的一项功能，可让你自动无缝翻译和生成多种语言的视频。此功能旨在帮助你本地化视频内容，以满足全球不同受众的需求。你可以跨各种用例（如 vlog、教育、新闻、企业培训、广告、电影、电视节目等）高效创建沉浸式本地化的视频。有关详细信息，请参阅视频翻译概述。

发音评估

语音发音评估现在正式支持 24 种语言（添加了 1 种新语言），另外，对 7 种语言的支持推出了公共预览版。有关详细信息，请参阅发音评估的完整语言列表。

2024 年 4 月版本

自动多语言语音翻译（预览版）

公共预览版中提供了自动多语言语音翻译。这一创新功能彻底改变了克服语言障碍的方式，为各种不同语言环境间的无缝沟通提供了无与伦比的功能。

主要亮点

未指定的输入语言：多语言语音翻译可以接收多种语言的音频，并且无需指定具体的预期输入语言。它使其成为无需预设即可跨全球环境理解和协作的宝贵功能。
语言切换：多语言语音翻译允许在同一会话中出现多种语言，并将它们全部翻译成相同的目标语言。更改输入语言或执行任何其他操作时，无需重启会话。

工作原理

旅行翻译：多语言语音翻译可以通过为游客提供首选语言的信息和帮助，增强游客游览国外目的地的体验。酒店接待服务、导游和游客中心可以利用这项技术来满足各种语言需求。
国际会议：多语言语音翻译可以使用实时翻译字幕促进来自不同地区、可能使用不同语言的参与者之间的交流。与会者可以使用自己的母语发言，无需指定，从而确保无缝理解和协作。
教育会议：在多元文化的课堂或在线学习环境中，多语言语音翻译可以支持学生和教师之间的语言多样性。它允许无缝沟通和参与，而无需指定每名学生或教师的语言。

如何访问

有关详细说明，请访问语音翻译概述。此外，还可以参考如何转换语音中的代码示例。从 1.37.0 开始，所有 SDK 版本均完全支持此新功能。

使用说话人角色分离的实时语音转文本 (GA)

使用说话人角色分离的实时语音转文本功能现已正式发布。

可以创建语音转文本应用程序来使用说话人角色分离区分参与对话的不同说话人。有关实时说话人角色分离的详细信息，请查看实时说话人角色分离快速入门。

语音转文本模型更新

实时语音转文本已发布具有双语功能的新模型。 en-IN 模型现在支持英语和印地语双语方案，并提高了准确性。阿拉伯语区域设置（ar-AE、ar-BH、ar-DZ、ar-IL、ar-IQ、ar-KW、ar-LB、ar-LY、ar-MA、ar-OM、ar-PS、ar-QA、ar-SA、ar-SY、ar-TN、ar-YE）现在都具有双语英语支持、更高的准确性和呼叫中心支持。

批量听录为以下区域设置提供具有新体系结构的模型：es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR 和 zh-CN。这些模型显著改善了可读性和实体识别。

2024 年 3 月版本

Whisper 正式发布 (GA)

Azure AI 语音的 Whisper 语音转文本模型现已正式发布。

请查看什么是 Whisper 模型？，详细了解使用 Azure AI 语音与 Azure OpenAI 服务的场景。

2024 年 2 月版本

发音评估

语音发音评估现在正式支持 23 种语言（添加了 5 种新语言），另外，对 3 种语言的支持推出了公共预览版。有关详细信息，请参阅发音评估的完整语言列表。

短语列表

添加了对以下区域设置的短语列表支持：ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。

2023 年 11 月版本

双语语音建模简介！

我们很高兴能够为我们的实时语音建模（双语语音建模）提供开创性补充。这一显著增强功能使我们的语音模型能够无缝支持双语语言对，如英语和西班牙语以及英语和法语。这一功能使用户能够在实时交互过程中轻松切换语言，这标志着我们致力于增强沟通体验的关键时刻。

主要亮点：

双语支持：通过我们的最新版本，用户可以在实时语音交互期间在英语和西班牙语之间或英语和法语之间无缝切换。此功能是为适应经常在这两种语言之间转换的双语使用者而量身定制的。
增强的用户体验：无论是在工作、家庭还是在各种社区环境中，双语使用者都会发现此功能非常有益。该模型能够实时理解和响应英语和西班牙语，为有效和流畅的沟通开辟了新的可能性。

如何使用：

调用语音服务 API 或在 Speech Studio 上试用时，请选择 es-US（西班牙语和英语）或 fr-CA（法语和英语）。可以随意使用任何一种语言或将它们混合在一起 — 该模型旨在动态调整，以两种语言提供准确和上下文感知的响应。

是时候使用我们最新发布的功能提升你的沟通游戏了 — 无缝多语言沟通触手可及！

语音转文本模型更新

我们很高兴能对语音模型进行重大更新，承诺增强的准确度、提高可读性和改进实体识别。这一升级带来了强大的新结构，并得到了扩展的定型数据集的支持，确保了整体性能的显著提升。它包括针对 en-US、zh-CN、ja-JP、it-IT、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE 和 he-IL 的新发布型号。

亮点：

使用新的模型结构提高了准确度：重新定义的模型结构，加上更丰富的训练数据集，提高了准确度水平，有望实现更精确的语音输出。
可读性提高：最新模型大大提高了可读性，增强了口语内容的连贯性和清晰度。
高级实体识别：实体识别得到了实质性的升级，产生了更准确、更细致的结果。

潜在影响：尽管取得了这些进步，但重要的是要注意潜在影响：

自定义静音超时功能：使用自定义静音超时的用户，尤其是设置较低的用户，可能会遇到单个过度分割和潜在的单词短语遗漏。
新模型可能与关键字前缀功能存在兼容性问题，建议用户评估其在特定应用程序中的性能。
减少了不流畅的单词或短语：用户可能会注意到语音输出中“嗯”或“呃”等不流畅的词或短语减少了。
单词时间戳持续时间不准确：一些不流畅的单词可能在时间戳持续期间显示不准确，需要在依赖于精确时间的应用中引起注意。
可信度分数分布差异：依赖可信度得分和相关阈值的用户应该意识到分布中的潜在变化，需要进行调整以获得最佳性能。
短语列表特征的准确度增强可能会受到某些短语错误识别的影响。

我们鼓励探索这些改进，并考虑无缝过渡的潜在问题，一如既往，你的反馈有助于改进和推进我们的服务。

发音评估

语音发音评估现在支持 18 种语言，还有 6 种语言可供公众预览。有关详细信息，请参阅发音评估的完整语言列表。
我们很高兴地宣布，发音评估将从 2023 年 11 月 1 日开始引入新功能：韵律、语法、词汇和主题。这些增强功能旨在为阅读和说话评估提供更全面的语言学习体验。升级到 SDK 1.35.0 或更改版本，在如何使用发音评估和 Speech Studio 中的发音评估中浏览更多详细信息。

2023 年 9 月版本

Whisper 公共预览版

Azure AI 语音现在支持通过批量听录 API 使用 OpenAI 的 Whisper 模型。要了解详细信息，请查看创建批量听录指南。

注意

Azure OpenAI 服务还支持通过同步 REST API 使用 OpenAI 的 Whisper 模型的语音转文本功能。若要了解详细信息，请查看快速入门。

请查看什么是 Whisper 模型？，详细了解使用 Azure AI 语音与 Azure OpenAI 服务的场景。

语音转文本 REST API v3.2 公共预览版

语音转文本 REST API v3.2 以预览版提供。语音转文本 REST API v3.1 已正式发布。语音转文本 REST API v3.0 将于 2026 年 4 月 1 日停用。有关详细信息，请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。

2023 年 8 月版

新的语音转文本区域设置：

语音转文本支持两个新的区域设置，如下表所示。在此处查看完整的语言列表。

Locale	语言
`pa-IN`	旁遮普语（印度）
`ur-IN`	乌尔都语（印度）

发音评估

语音发音评估现在支持英语（加拿大）、英语（印度）和法语（加拿大）中一般可用的 3 种其他语言，预览版中还可以使用另外 3 种语言。有关详细信息，请参阅发音评估的完整语言列表。

2023 年 5 月版本

发音评估

语音发音评估现在以正式版形式支持额外 3 种语言 - 德语（德国）、日语（日本）和西班牙语（墨西哥），还有另外 4 种语言在预览版中可用。有关详细信息，请参阅发音评估的完整语言列表。
现在，可在所有公共区域使用标准语音转文本承诺层级进行发音评估。如果你购买了标准语音转文本的承诺层级，则用于发音评估的支出将用于满足承诺。请参阅承诺层级定价。

2023 年 2 月版本

发音评估

语音发音评估现在支持 5 种其他语言，正式版本提供英语（英国）、英语（澳大利亚）、法语（法国）、西班牙语（西班牙）和中文（普通话、简体），预览版本提供其他语言。
新增了示例代码，演示如何在自己的应用程序中使用流式处理模式下的发音评估。
- C#：请参阅示例代码。
- C++：请参阅示例代码。
- java：请参阅示例代码。
- javascript：请参阅示例代码。
- Objective-C：请参阅示例代码。
- Python：请参阅示例代码。
- Swift：请参阅示例代码。

自定义语音

为 de-AT 区域设置添加了对音频 + 人工标记的脚本的支持。

2023 年 1 月版本

自定义语音

为更多区域设置添加了对“音频 + 人工标记的脚本”的支持：ar-BH、ar-DZ、ar-EG、ar-MA、ar-SA、ar-TN、ar-YE 和 ja-JP。

为 de-AT 区域设置添加了对结构化文本改编的支持。

2022 年 12 月版本

语音转文本 REST API

语音转文本 REST API 版本 3.1 已推出正式版。语音转文本 REST API 版本 3.0 即将停用。若要详细了解如何进行迁移，请参阅指南。

2022 年 10 月版本

新的语音转文本区域设置

添加了 ml-IN 区域设置的马拉雅拉姆语（印度）的支持。在此处查看完整的语言列表。

2022 年 7 月版本

新的语音转文本区域设置：

增加了 7 个新区域设置，如下表所示。在此处查看完整的语言列表。

Locale	语言
`bs-BA`	波斯尼亚语（波斯尼亚和黑塞哥维那）
`yue-CN`	中文（粤语，简体）
`zh-CN-sichuan`	中文（西南普通话，简体）
`wuu-CN`	中文（吴语，简体）
`ps-AF`	普什图语（阿富汗）
`so-SO`	索马里语（索马里）
`cy-GB`	威尔士语（英国）

2022 年 6 月版本

新的语音转文本区域设置：

增加了 10 个新区域设置，如下表所示。在此处查看完整的语言列表。

Locale	语言
`sq-AL`	阿尔巴尼亚语（阿尔巴尼亚）
`hy-AM`	亚美尼亚语（亚美尼亚）
`az-AZ`	阿塞拜疆语（阿塞拜疆）
`eu-ES`	巴斯克语
`gl-ES`	加利西亚语
`ka-GE`	格鲁吉亚语（格鲁吉亚）
`it-CH`	意大利语（瑞士）
`kk-KZ`	哈萨克语（哈萨克斯坦）
`mn-MN`	蒙古语（蒙古）
`ne-NP`	尼泊尔语（尼泊尔）

2022 年 4 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

Locale	语言
`bn-IN`	孟加拉语（印度）

2022 年 1 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

Locale	语言
`af-ZA`	南非荷兰语（南非）
`am-ET`	阿姆哈拉语（埃塞俄比亚）
`de-CH`	德语（瑞士）
`fr-BE`	法语（比利时）
`is-IS`	冰岛语(冰岛)
`jv-ID`	爪哇语（印度尼西亚）
`km-KH`	高棉语(柬埔寨)
`kn-IN`	卡纳达语（印度）
`lo-LA`	老挝语(老挝)
`mk-MK`	马其顿语（北马其顿）
`my-MM`	缅甸语(缅甸)
`nl-BE`	荷兰语（比利时）
`si-LK`	僧伽罗语(斯里兰卡)
`sr-RS`	塞尔维亚语（塞尔维亚）
`sw-TZ`	斯瓦希里语（坦桑尼亚）
`uk-UA`	乌克兰语(乌克兰)
`uz-UZ`	乌兹别克语（乌兹别克斯坦）
`zu-ZA`	祖鲁语（南非）

2021 年 7 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

Locale	语言
`ar-DZ`	阿拉伯语（阿尔及利亚）
`ar-LY`	阿拉伯语（利比亚）
`ar-MA`	阿拉伯语（摩洛哥）
`ar-TN`	阿拉伯语（突尼斯）
`ar-YE`	阿拉伯语（也门）
`bg-BG`	保加利亚语(保加利亚)
`el-GR`	希腊语(希腊)
`et-EE`	爱沙尼亚语(爱沙尼亚)
`fa-IR`	波斯语（伊朗）
`ga-IE`	爱尔兰语（爱尔兰）
`hr-HR`	克罗地亚语（克罗地亚）
`lt-LT`	立陶宛语(立陶宛)
`lv-LV`	拉脱维亚语(拉脱维亚)
`mt-MT`	马耳他语（马耳他）
`ro-RO`	罗马尼亚语(罗马尼亚)
`sk-SK`	斯洛伐克语（斯洛伐克）
`sl-SI`	斯洛文尼亚语（斯洛文尼亚）
`sw-KE`	斯瓦希里语（肯尼亚）

2021 年 1 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

Locale	语言
`ar-AE`	阿拉伯语（阿拉伯联合酋长国）
`ar-IL`	阿拉伯语（以色列）
`ar-IQ`	阿拉伯语（伊拉克）
`ar-OM`	阿拉伯语（阿曼）
`ar-PS`	阿拉伯语（巴勒斯坦民族权利机构）
`de-AT`	德语（奥地利）
`en-GH`	英语（加纳）
`en-KE`	英语（肯尼亚）
`en-NG`	英语（尼日利亚）
`en-TZ`	英语（坦桑尼亚）
`es-GQ`	西班牙语（赤道几内亚）
`fil-PH`	菲律宾语（菲律宾）
`fr-CH`	法语（瑞士）
`he-IL`	希伯来语（以色列）
`id-ID`	印度尼西亚语(印度尼西亚)
`ms-MY`	马来语（马来西亚）
`vi-VN`	越南语(越南)

2020 年 8 月版本

新的语音转文本区域设置：

语音转文本在 8 月份发布了 26 个新的区域设置：2 个欧洲语言（cs-CZ 和 hu-HU），5 个英语区域设置，以及涵盖大部分南美国家/地区的 19 个西班牙语区域设置。下面是新区域设置的列表。在此处查看完整的语言列表。

Locale	语言
`cs-CZ`	捷克语（捷克共和国）
`en-HK`	英语（香港特别行政区）
`en-IE`	英语（爱尔兰）
`en-PH`	英语（菲律宾）
`en-SG`	英语（新加坡）
`en-ZA`	英语（南非）
`es-AR`	西班牙语（阿根廷）
`es-BO`	西班牙语（玻利维亚）
`es-CL`	西班牙语（智利）
`es-CO`	西班牙语（哥伦比亚）
`es-CR`	西班牙语（哥斯达黎加）
`es-CU`	西班牙语（古巴）
`es-DO`	西班牙语（多米尼加共和国）
`es-EC`	西班牙语（厄瓜多尔）
`es-GT`	西班牙语（危地马拉）
`es-HN`	西班牙语（洪都拉斯）
`es-NI`	西班牙（尼加拉瓜）
`es-PA`	西班牙语（巴拿马）
`es-PE`	西班牙语（秘鲁）
`es-PR`	西班牙语（波多黎各）
`es-PY`	西班牙语（巴拉圭）
`es-SV`	西班牙语（萨尔瓦多）
`es-US`	西班牙语（美国）
`es-UY`	西班牙语（乌拉圭）
`es-VE`	西班牙语（委内瑞拉）
`hu-HU`	匈牙利语(匈牙利)

2024 年 10 月版本

添加了对最新模型版本的支持：

语音语言识别 1.16.0
神经网络文本转语音 3.5.0
- 将 en-us-ariacpuneural 设置为 en-us-jessacpuneural 的别名
- 更新文本转语音后端引擎版本
语音转文本 4.10.0
- 恢复对 uk-UA 区域设置的支持
- 修复静音设置，以处理音频中长时间的静音
- 替换已弃用的模型：cs-CZ、da-DK、en-GB、fr-CA、hu-HU、it-CH、tr-TR、zh-CN-sichuan
自定义语音转文本 4.10.0

2024 年 9 月版本

添加了对最新模型版本的支持：

语音语言识别 1.15.0
- 缓解漏洞问题
神经网络文本转语音 3.4.0
- 新语音：en-us-andrewmultilingualneural、en-us-jessaneural、es-us-alonsoneural、es-us-palomaneural、it-it-isabellamultilingualneural
- 缓解漏洞问题
语音转文本 4.9.0
- 新区域设置：ar-YE、af-ZA、am-ET、ar-MA、ar-TN、sw-KE、sw-TZ、zu-ZA
- 缓解漏洞问题
- 更新已弃用的模型
自定义语音转文本 4.9.0
- 缓解漏洞问题

2024 年 8 月版

添加了对最新模型版本的支持：

语音语言识别 1.14.0
- 升级 .NET 8.0
- 缓解漏洞问题
神经网络文本转语音 3.3.0
- 升级 .NET 8.0
- 缓解漏洞问题
语音转文本 4.8.0
- 升级 .NET 8.0
- 缓解漏洞问题
- 升级识别引擎
- 修复 PropertyId.Speech_SegmentationSilenceTimeoutMs 被忽略的问题。
- 更新已弃用的模型
- 删除 uk-UA 区域设置

2024 年 2 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.6.0
语音转文本 4.6.0
神经网络文本转语音 3.1.0

将语音转文本组件到最新。将所有 es 区域设置模型升级到最新。增加语音转文本用例的媒体转换缓冲区。

2023 年 11 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.5.0
语音转文本 4.5.0
神经网络文本转语音 2.19.0

2023 年 10 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.4.0
语音转文本 4.4.0
神经网络文本转语音 2.18.0

修复多个高风险漏洞问题。

移除容器中的冗余日志。

将内部媒体组件升级到最新版本。

添加对语音 en-IN-NeerjaNeural 的支持。

2023 年 9 月版本

添加了对最新模型版本的支持：

语音语言识别 1.12.0
自定义语音转文本 4.3.0
语音转文本 4.3.0
神经网络文本转语音 2.17.0

将自定义语音转文本和语音转文本升级到最新框架。

修复漏洞问题。

添加对语音 ar-AE-FatimaNeural 的支持。

2023 年 7 月版

添加了对最新模型版本的支持：

自定义语音转文本 4.1.0
语音转文本 4.1.0
神经网络文本转语音 2.15.0

修复使用本地自定义模型文件通过 docker 装载选项运行语音转文本容器的问题。

修复在某些情况下 RECOGNIZING 事件不会通过语音 SDK 在响应中显示的问题。

修复漏洞问题。

2023 年 6 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.0.0
语音转文本 4.0.0
神经网络文本转语音 2.14.0

本地语音转文本图像升级至 .NET 6.0

升级用于语言区域设置的显示模型，包括 en-us、ar-eg、ar-bh、ja-jp、ko-kr 等。

升级语音转文本容器组件以解决漏洞问题。

添加对以下区域设置语音的支持：de-DE-AmalaNeural、de-AT-IngridNeural、de-AT-JonasNeural 和 en-US-JennyMultilingualNeural

2023 年 5 月版本

添加了对最新模型版本的支持：

自定义语音转文本 3.14.0
语音转文本 3.14.0
神经网络文本转语音 2.13.0

修复 he-IL 标点问题

修复漏洞问题

添加新的区域语音 en-US-MichelleNeural 和 es-MX-CandelaNeural

2023 年 4 月版本

安全更新

修复漏洞问题

2023 年 3 月版

添加了对最新模型版本的支持：

自定义语音转文本 3.12.0
语音转文本 3.12.0
语音语言识别 1.11.0
神经网络文本转语音 2.11.0

修复漏洞问题

修复 tr-TR 大写问题

升级语音转文本 en-US 显示模式

添加对预生成神经网络文本转语音区域设置语音 ar-AE-HamdanNeural 的支持

2023 年 2 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.11.0
语音转文本 3.11.0
神经网络文本转语音 2.10.0

修复漏洞问题

定期升级语音模型

添加新的阿拉伯区域设置：

ar-IL
ar-PS

升级希伯来语和土耳其语显示模型

2023 年 1 月版

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.10.0
语音转文本 3.10.0
神经网络文本转语音 2.9.0

修复假设模式问题

修复 HTTP 代理问题

自定义语音转文本容器断开连接模式

向 TTS 前端添加 CNV 断开连接容器支持

添加对以下区域设置语音的支持：

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022 年 12 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.9.0
语音转文本 3.9.0
神经网络文本转语音 2.8.0

修复 ipv4/ipv6 问题

修复漏洞问题

2022 年 11 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.8.0
语音转文本 3.8.0
神经网络文本转语音 2.7.0

2022 年 10 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.7.0
语音转文本 3.7.0
神经网络文本转语音 2.6.0

2022 年 9 月版本

语音转文本 3.6.0-amd64

添加了最新模型版本的支持。

添加了以下区域设置的支持：

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

每月定期更新，包括安全升级和漏洞修复。

自定义语音转文本 3.6.0-amd64

每月定期更新，包括安全升级和漏洞修复。

神经网络文本转语音 v2.5.0

添加了对这些预生成神经语音的支持：

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

每月定期更新，包括安全升级和漏洞修复。

2022 年 5 月版本

语音语言检测容器 v1.9.0-amd64-preview

语音语言检测的 Bug 修复。

2022 年 3 月版

自定义语音转文本容器 v3.1.0

增加了对获取显示模型的支持。

2022 年 1 月版

语音转文本容器 v3.0.0

添加了在断开连接的环境中使用容器的支持。

语音转文本容器 v2.18.0

每月定期更新，包括安全升级和漏洞修复。

神经网络-神经网络文本转语音容器 v1.12.0

添加了对这些预生成神经网络语音的支持：am-et-amehaneural、am-et-mekdesneural、so-so-muuseneural 和 so-so-ubaxneural。

每月定期更新，包括安全升级和漏洞修复。

通过

Azure AI 语音中有哪些新增功能？

最新亮点

发行说明

语音 SDK 1.42.0：2024 年 12 月发行版

新功能

Bug 修复

示例

2024 年 11 月版本

适用于 Visual Studio Code 的 Azure AI 语音工具包扩展

文本转语音头像代码示例

语音 SDK 1.41.1：2024 年 10 月版本

新增功能

缺陷修复

重大更改

语音 SDK 1.4.0：2024 年 8 月版

新功能

Bug 修复

示例

语音 SDK 1.38.0：2024 年 6 月版本

新功能

Bug 修复

示例

语音 SDK 1.37.0：2024 年 4 月发布

新功能

缺陷修复

示例

语音 SDK 1.36.0：2024 年 3 月版

新功能

缺陷修复

示例

语音 SDK 1.35.0：2024 年 2 月版本

新功能

缺陷修复

示例

语音 SDK 1.34.1：2024 年 1 月发布版

中断性变更

新增功能

Bug 修复

语音 1.34.0：2023 年 11 月版本

中断性变更

新功能

Bug 修复

示例

语音 CLI 1.34.0：2023 年 11 月版本

新增功能

Bug 修复

语音 SDK 1.33.0：2023 年 10 月版本

中断性变更通知

新增功能

Bug 修复

示例

语音 CLI 1.33.0：2023 年 10 月版本

新增功能

Bug 修复

语音 SDK 1.32.1：2023 年 9 月版本

Bug 修复

示例

语音 SDK 1.31.0：2023 年 8 月版

新功能

中断性变更

Bug 修复

示例

语音 SDK 1.30.0：2023 年 7 月版本

新功能

Bug 修复

更多备注

示例

语音 SDK 1.29.0：2023 年 6 月版本

新功能

Bug 修复

示例

语音 SDK 1.28.0：2023 年 5 月版本

重大更改

新功能

Bug 修复

示例

语音 SDK 1.27.0：2023 年 4 月发布

关于即将进行的更改的通知

新功能