总结

1 分钟

在本模块中，你了解了语音技术的两个关键方面：语音识别和合成。语音识别涉及使用声学模型和语言模型将口语字词转换为数据（通常转录为文本）。该文本可用于各种目的，如隐藏式字幕、脚本、自动笔记听写和用户输入处理。另一方面，语音合成是关于数据发声的，通常通过将文本转换为语音的方式进行。合成语音可用于生成口头响应、创建语音菜单、大声朗读电子邮件或文本，以及广播公告。你还了解了 Microsoft Azure 的 AI 语音服务，该服务通过语音转文本 API 和文本转语音 API 等功能提供语音识别和合成功能。

本模块的要点是 Azure AI 语音服务的功能。语音转文本 API 允许使用一个基于 Microsoft 训练的通用语言模型的模型将音频实时或批量转录为文本。它可用于演示期间的实时转录，或用于存储的音频文件的批量转录。文本转语音 API 将文本输入转换为可听见的语音，后者可以使用不同的语音、语言和区域发音进行自定义。Azure AI 语音是一种多功能工具，允许用户通过各种平台进行访问，这些平台包括：Azure AI Speech Studio、Azure AI Studio、命令行界面 (CLI)、REST API 和软件开发工具包 (SDK)。

你可以在服务文档中找到 Azure AI 语音的相关详细信息。

总结

反馈