你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
语音转文本 REST API
语音转文本 REST API 用于批量听录和自定义语音识别。
重要
语音转文本 REST API 版本 2024-11-15
是正式发布的最新版本。
- 语音转文本 REST API 版本
2024-05-15-preview
将于宣布日期停用。 - 语音转文本 REST API
v3.0
、v3.1
、v3.2
,3.2-preview.1
将于3.2-preview.2
2026 年 4 月 1 日停用。
有关升级的详细信息,请参阅语音转文本 REST API v3.0 到 v3.1、 v3.1 到 v3.2,以及 v3.2 到 2024-11-15 迁移指南。
使用语音转文本 REST API:
- 快速听录:以同步方式转录返回结果的音频文件,比实时音频快得多。 使用快速听录 API(/speechtotext/听录:听录:听录),在需要尽快记录音频录制的脚本时,可预测延迟,例如快速音频或视频听录或视频翻译。
- 自定义语音识别:上传自己的数据、测试和训练自定义模型、比较模型之间的准确度,以及将模型部署到自定义终结点。 在希望同事有权访问你生成的模型或希望将模型部署到多个区域的情况下,将模型复制到其他订阅。
- 批量听录:从多个 URL 或 Azure 容器批量听录音频文件。
语音转文本 REST API 包括以下功能:
- 如果要求获取每个终结点的日志,则获取每个终结点的日志。
- 请求创建的模型的清单,以便设置本地容器。
- 使用共享访问签名 (SAS) URI 从 Azure 存储帐户上传数据。
- 自带存储空间。 针对日志、听录文件和其他数据使用自己的存储帐户。
- 一些操作支持 Webhook 通知。 可以在发送通知的位置注册 Webhook。
批量听录
以下操作组适用于批量听录。
操作组 | 说明 |
---|---|
模型 | 使用基础模型或自定义模型来听录音频文件。 可以将模型与自定义语音识别和批量听录配合使用。 例如,可以使用经由特定数据集训练的模型来听录音频文件。 有关如何训练和管理自定义语音识别模型的示例,请参阅训练模型和自定义语音识别模型生命周期。 |
听录 | 使用听录在存储中听录大量音频。 使用批量听录时,请为每个请求发送多个文件,或指向包含要听录的音频文件的 Azure Blob 存储容器。 有关如何从多个音频文件创建听录的示例,请参阅创建听录。 |
Webhook | 使用 Webhook 接收有关创建、处理、完成和删除事件的通知。 可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。 |
自定义语音
以下操作组适用于自定义语音识别。
操作组 | 说明 |
---|---|
数据集 | 使用数据集来训练和测试自定义语音识别模型。 例如,可以将使用特定数据集训练的自定义语音识别的性能与使用其他数据集训练的基础模型或自定义语音识别模型的性能进行比较。 有关如何上传数据集的示例,请参阅上传训练和测试数据集。 |
端点 | 将自定义语音识别模型部署到终结点。 必须部署自定义终结点才能使用自定义语音识别模型。 有关如何管理部署终结点的示例,请参阅部署模型。 |
评估 | 使用评估来比较不同模型的性能。 例如,可以将使用特定数据集训练的自定义语音识别模型的性能与使用其他数据集训练的基础模型或自定义模型的性能进行比较。 有关如何测试和评估自定义语音识别模型的示例,请参阅测试识别质量和测试准确度。 |
模型 | 使用基础模型或自定义模型来听录音频文件。 可以将模型与自定义语音识别和批量听录配合使用。 例如,可以使用经由特定数据集训练的模型来听录音频文件。 有关如何训练和管理自定义语音识别模型的示例,请参阅训练模型和自定义语音识别模型生命周期。 |
项目 | 使用项目来管理自定义语音识别模型、训练和测试数据集,以及部署终结点。 自定义语音识别项目包含模型、训练和测试数据集,以及部署终结点。 每个项目特定于某个区域设置。 例如,你可能会在美国创建一个语言为英语的项目。 有关如何创建项目的示例,请参阅创建项目。 |
Webhook | 使用 Webhook 接收有关创建、处理、完成和删除事件的通知。 可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。 |
服务运行状况
服务运行状况提供有关服务和子组件的总体运行状况的见解。 有关详细信息,请参阅服务运行状况。