集成和使用语音识别和听录

2 分钟

语音服务将语音转文本、文本转语音和语音翻译统一到单个 Azure 订阅中。借助语音 CLI、语音 SDK、语音设备 SDK、Speech Studio 或 REST API，可以轻松通过语音启用应用程序、工具和设备。

语音识别

说话人识别服务提供一些算法，可使用语音生物测量，根据说话人独特的语音特征来验证和识别说话人。它用于回答问题“谁在说话？”首先，为单个说话人提供音频训练数据，该数据将根据说话人语音的独特特征创建注册配置文件。然后，你可以对照此配置文件交叉检查音频语音样本，以验证说话人是否为同一个人（说话人验证），或者，你可以对照一组已注册的说话人配置文件交叉检查音频语音样本，以查看它是否与组中的任何配置文件相匹配（说话人识别）。相比之下，Speaker Diarization 使用批处理操作按说话人身份对音频流进行分组，这意味着每个不同的说话人都有其自己的音频段。

听录

听录是一组 REST API 操作，使你能够转录存储中的音频。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

MRTK 语音命令

与 Windows 语音输入一样，语音输入提供程序不创建任何控制器，而是使你能够定义在被识别时引发语音输入事件的关键字。你将在输入系统配置文件的语音命令配置文件中配置用于识别的关键字。对于每个命令，还可以：

选择要映射到命令的输入操作。例如，可以通过这种方式使关键字 Select 达到与单击鼠标左键相同的效果，方法是将这两项操作映射到同一操作。
指定会在按下时生成相同语音事件的键控代码。
添加一个本地化键，其在 UWP 应用中用于从应用资源中获取本地化关键字。

语音 SDK

语音软件开发工具包 (SDK) 公开了许多语音服务功能，使你能够开发支持语音的应用程序。语音 SDK 可以在许多编程语言中和所有平台中使用。语音 SDK 公开了语音服务的许多功能（但并非所有功能）。语音 SDK 的功能通常与方案相关联。语音 SDK 同时适用于实时和非实时方案，使用本地设备、文件、Azure Blob 存储甚至输入和输出流。如果无法通过语音 SDK 实现某个方案，请寻求使用 REST API 替代方法。

空间感知

空间感知提供对空间映射数据的编程访问，为混合现实应用提供用户附近的应用程序指定空间区域中的表面的相关信息。仅当应用将显式使用这些表面网格时，才声明空间感知功能。混合现实应用根据用户的头部姿势执行全息绘制时无需此功能。

Internet 客户端服务器

Internet 客户端服务器支持应用需要侦听传入网络连接的对等 (P2P) 场景。

专用网络客户端服务器

专用网络客户端服务器通过防火墙提供对家庭和工作网络的入站和出站访问。此功能通常用于跨局域网 (LAN) 进行通信的游戏，以及跨各种本地设备共享数据的应用。