你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Datasets - Create

通过从指定 URL 获取数据或开始等待上传数据块来上传并创建新数据集。

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

URI 参数

名称 必需 类型 说明
endpoint
path True

string

支持的认知服务终结点 (协议和主机名,例如: https://westus.api.cognitive.microsoft.com) 。

请求正文

名称 必需 类型 说明
displayName True

string

对象的显示名称。

kind True

DatasetKind

DatasetKind
数据导入的类型。

locale True

string

包含数据的区域设置。

contentUrl

string

数据集的数据的 URL。

customProperties

object

此实体的自定义属性。 允许的最大密钥长度为 64 个字符,允许的最大值长度为 256 个字符,允许的条目计数为 10。

description

string

对象的说明。

project

EntityReference

EntityReference

properties

DatasetProperties

DatasetProperties

响应

名称 类型 说明
201 Created

Dataset

响应包含有关实体作为有效负载及其作为标头的位置的信息。

标头

Location: string

Other Status Codes

Error

出现了错误。

安全性

Ocp-Apim-Subscription-Key

在此处提供认知服务帐户密钥。

类型: apiKey
在: header

Authorization

提供此区域的 STS 返回的 JWT 的访问令牌。 通过将以下查询字符串添加到 STS URL,确保将管理范围添加到令牌: ?scope=speechservicesmanagement

类型: apiKey
在: header

示例

Create a dataset with content url
Create dataset from data blocks

Create a dataset with content url

示例请求

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

{
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/location",
  "locale": "en-US",
  "displayName": "My speech dataset name",
  "description": "My speech dataset description"
}

示例响应

Location: https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1
{
  "self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1",
  "kind": "Acoustic",
  "contentUrl": "https://www.contoso.com/acousticdata/sourcelocation",
  "links": {
    "files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/files"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 11,
    "rejectedLineCount": 2,
    "duration": "PT4M12S"
  },
  "lastActionDateTime": "2019-01-07T11:36:07Z",
  "status": "Succeeded",
  "createdDateTime": "2019-01-07T11:34:12Z",
  "locale": "en-US",
  "displayName": "Acoustic dataset"
}

Create dataset from data blocks

示例请求

POST {endpoint}/speechtotext/v3.2-preview.2/datasets

{
  "kind": "Acoustic",
  "locale": "en-US",
  "displayName": "My speech dataset name",
  "description": "My speech dataset description"
}

示例响应

{
  "self": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1",
  "kind": "Acoustic",
  "links": {
    "files": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/files",
    "commitBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks:commit",
    "listBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks",
    "uploadBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/blocks"
  },
  "lastActionDateTime": "2019-01-07T11:36:07Z",
  "status": "NotStarted",
  "createdDateTime": "2019-01-07T11:34:12Z",
  "locale": "en-US",
  "displayName": "Acoustic dataset"
}

定义

名称 说明
Dataset

数据集

DatasetKind

DatasetKind

DatasetLinks

DatasetLinks

DatasetProperties

DatasetProperties

DetailedErrorCode

DetailedErrorCode

EntityError

EntityError

EntityReference

EntityReference

Error

错误

ErrorCode

ErrorCode

InnerError

InnerError

Status

状态

TextNormalizationKind

TextNormalizationKind

Dataset

数据集

名称 类型 说明
contentUrl

string

数据集的数据的 URL。

createdDateTime

string

创建对象时的时间戳。 时间戳编码为 ISO 8601 日期和时间格式 (“YYYY-MM-DDThh:mm:ssZ”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。

customProperties

object

此实体的自定义属性。 允许的最大密钥长度为 64 个字符,允许的最大值长度为 256 个字符,允许的条目计数为 10。

description

string

对象的说明。

displayName

string

对象的显示名称。

kind

DatasetKind

DatasetKind
数据导入的类型。

lastActionDateTime

string

输入当前状态时的时间戳。 时间戳编码为 ISO 8601 日期和时间格式 (“YYYY-MM-DDThh:mm:ssZ”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) 。

links

DatasetLinks

DatasetLinks

locale

string

包含数据的区域设置。

project

EntityReference

EntityReference

properties

DatasetProperties

DatasetProperties

self

string

此实体的位置。

status

Status

状态
描述 API 的当前状态

DatasetKind

DatasetKind

名称 类型 说明
Acoustic

string

声学数据集。

AudioFiles

string

音频文件数据集。

Language

string

语言数据集。

LanguageMarkdown

string

语言 markdown 数据集。

OutputFormatting

string

数据集包含用于自定义反文本规范化、大写、重新生成、亵渎的规则,还定义数据集验证测试

Pronunciation

string

发音数据集。

DatasetLinks

名称 类型 说明
commitBlocks

string

使用块上传数据集时提交块列表的位置。 有关更多详细信息,请参阅操作“Datasets_CommitBlocks”。

files

string

获取此实体的所有文件的位置。 有关更多详细信息,请参阅操作“Datasets_ListFiles”。

listBlocks

string

使用块上传数据集时列出此实体已上传块的位置。 有关更多详细信息,请参阅操作“Datasets_GetBlocks”。

uploadBlocks

string

使用块上传数据集时要向其上传块的位置。 有关更多详细信息,请参阅操作“Datasets_UploadBlock”。

DatasetProperties

DatasetProperties

名称 类型 说明
acceptedLineCount

integer

此数据集接受的行数。

duration

string

数据集包含音频文件的总持续时间。 持续时间编码为 ISO 8601 持续时间 (“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations) 。

email

string

要向其发送电子邮件通知的电子邮件地址,以防操作完成。 成功发送电子邮件后,将删除该值。

error

EntityError

EntityError

rejectedLineCount

integer

此数据集拒绝的行数。

textNormalizationKind

TextNormalizationKind

TextNormalizationKind
文本规范化的类型。

DetailedErrorCode

DetailedErrorCode

名称 类型 说明
DataImportFailed

string

数据导入失败。

DeleteNotAllowed

string

不允许删除。

DeployNotAllowed

string

不允许部署。

DeployingFailedModel

string

部署失败的模型。

EmptyRequest

string

空请求。

EndpointCannotBeDefault

string

终结点不能为默认值。

EndpointNotUpdatable

string

终结点不可更新。

EndpointWithoutLogging

string

不记录的终结点。

ExceededNumberOfRecordingsUris

string

超出了录制 URI 数。

FailedDataset

string

失败的数据集。

Forbidden

string

已禁止。

InUseViolation

string

在使用中冲突。

InaccessibleCustomerStorage

string

无法访问客户存储。

InvalidAdaptationMapping

string

无效的适应映射。

InvalidBaseModel

string

基本模型无效。

InvalidCallbackUri

string

无效的回调 URI。

InvalidCollection

string

无效的集合。

InvalidDataset

string

无效的数据集。

InvalidDocument

string

无效的文档。

InvalidDocumentBatch

string

无效的文档批处理。

InvalidLocale

string

区域设置无效。

InvalidLogDate

string

日志日期无效。

InvalidLogEndTime

string

日志结束时间无效。

InvalidLogId

string

日志 ID 无效。

InvalidLogStartTime

string

日志开始时间无效。

InvalidModel

string

无效的模型。

InvalidModelUri

string

模型 URI 无效。

InvalidParameter

string

参数无效。

InvalidParameterValue

string

参数值无效。

InvalidPayload

string

有效负载无效。

InvalidPermissions

string

权限无效。

InvalidPrerequisite

string

先决条件无效。

InvalidProductId

string

产品 ID 无效。

InvalidProject

string

无效的项目。

InvalidProjectKind

string

无效的项目类型。

InvalidRecordingsUri

string

录制 URI 无效。

InvalidRequestBodyFormat

string

请求正文格式无效。

InvalidSasValidityDuration

string

SAS 有效期无效。

InvalidSkipTokenForLogs

string

日志的跳过令牌无效。

InvalidSourceAzureResourceId

string

源 Azure 资源 ID 无效。

InvalidSubscription

string

无效的订阅。

InvalidTest

string

测试无效。

InvalidTimeToLive

string

生存时间无效。

InvalidTopForLogs

string

日志顶部无效。

InvalidTranscription

string

听录无效。

InvalidWebHookEventKind

string

Web 挂钩事件类型无效。

MissingInputRecords

string

缺少输入记录。

ModelCopyOperationExists

string

存在模型复制操作。

ModelDeploymentNotCompleteState

string

模型部署未完成状态。

ModelDeprecated

string

模型已弃用。

ModelExists

string

模型存在。

ModelMismatch

string

模型不匹配。

ModelNotDeployable

string

模型不可部署。

ModelVersionIncorrect

string

模型版本不正确。

NoUtf8WithBom

string

没有具有 bom 的 utf8。

OnlyOneOfUrlsOrContainerOrDataset

string

只有一个 URL 或容器或数据集。

ProjectGenderMismatch

string

项目性别不匹配。

QuotaViolation

string

配额冲突。

SingleDefaultEndpoint

string

单个默认终结点。

SkuLimitsExist

string

存在 SKU 限制。

SubscriptionNotFound

string

找不到订阅。

UnexpectedError

string

意外错误。

UnsupportedClassBasedAdaptation

string

不支持的基于类的适应。

UnsupportedDelta

string

不支持的增量。

UnsupportedDynamicConfiguration

string

不支持的动态配置。

UnsupportedFilter

string

不支持的筛选器。

UnsupportedLanguageCode

string

不支持的语言代码。

UnsupportedOrderBy

string

不支持的订单。

UnsupportedPagination

string

不支持分页。

UnsupportedTimeRange

string

不支持的时间范围。

EntityError

EntityError

名称 类型 说明
code

string

此错误的代码。

message

string

此错误的消息。

EntityReference

EntityReference

名称 类型 说明
self

string

被引用实体的位置。

Error

错误

名称 类型 说明
code

ErrorCode

ErrorCode
高级错误代码。

details

Error[]

有关错误和/或预期策略的其他支持性详细信息。

innerError

InnerError

InnerError
新的内部错误格式,符合认知服务 API 指南,可从 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow获取。 这包含必需的属性 ErrorCode、消息和可选属性目标、详细信息(键值对)、内部错误(可以嵌套)。

message

string

高级别错误消息。

target

string

错误的源。 例如,如果文档无效,应为“文档”或“文档 ID”。

ErrorCode

ErrorCode

名称 类型 说明
Conflict

string

表示冲突错误代码。

Forbidden

string

表示禁止的错误代码。

InternalCommunicationFailed

string

表示内部通信失败的错误代码。

InternalServerError

string

表示内部服务器错误代码。

InvalidArgument

string

表示无效参数错误代码。

InvalidRequest

string

表示无效请求错误代码。

NotAllowed

string

表示不允许的错误代码。

NotFound

string

表示“找不到”错误代码。

PipelineError

string

表示管道错误代码。

ServiceUnavailable

string

表示服务不可用错误代码。

TooManyRequests

string

表示请求过多错误代码。

Unauthorized

string

表示未经授权的错误代码。

UnprocessableEntity

string

表示不可处理的实体错误代码。

UnsupportedMediaType

string

表示不受支持的媒体类型错误代码。

InnerError

InnerError

名称 类型 说明
code

DetailedErrorCode

DetailedErrorCode
详细的错误代码枚举。

details

object

有关错误和/或预期策略的其他支持性详细信息。

innerError

InnerError

InnerError
新的内部错误格式,符合认知服务 API 指南,可从 https://microsoft.sharepoint.com/%3Aw%3A/t/CognitiveServicesPMO/EUoytcrjuJdKpeOKIK_QRC8BPtUYQpKBi8JsWyeDMRsWlQ?e=CPq8ow获取。 这包含必需的属性 ErrorCode、消息和可选属性目标、详细信息(键值对)、内部错误(可以嵌套)。

message

string

高级别错误消息。

target

string

错误的源。 例如,如果文档无效,应为“文档”或“文档 ID”。

Status

状态

名称 类型 说明
Failed

string

长时间运行的操作失败。

NotStarted

string

长时间运行的操作尚未启动。

Running

string

长时间运行的操作当前正在处理。

Succeeded

string

长时间运行的操作已成功完成。

TextNormalizationKind

TextNormalizationKind

名称 类型 说明
Default

string

默认文本规范化 (例如,在 en-US) 中,“2 到 3”替换为“2 到 3”。

None

string

不会对输入文本应用任何文本规范化。 这是一个替代选项,仅在上传前将文本规范化时才应使用。