Datasets - Create
上傳並建立新的數據集,方法是從指定的URL取得數據,或開始等候要上傳的數據區塊。
POST {endpoint}/speechtotext/datasets?api-version=2024-11-15
URI 參數
名稱 | 位於 | 必要 | 類型 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
支援的認知服務端點(通訊協定和主機名,例如:https://westus.api.cognitive.microsoft.com)。 |
api-version
|
query | True |
string |
要求的 API 版本。 |
要求標頭
名稱 | 必要 | 類型 | Description |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
在這裡提供您的認知服務帳戶金鑰。 |
要求本文
名稱 | 必要 | 類型 | Description |
---|---|---|---|
displayName | True |
string |
對象的顯示名稱。 |
kind | True |
DatasetKind |
|
locale | True |
string |
自主數據的地區設定。 |
contentUrl |
string |
數據集數據的 URL。 |
|
customProperties |
object |
此實體的自定義屬性。 允許的索引鍵長度上限為 64 個字元,允許的最大值長度為 256 個字元,允許的項目計數為 10。 |
|
description |
string |
物件的描述。 |
|
properties |
DatasetProperties |
回應
名稱 | 類型 | Description |
---|---|---|
201 Created |
回應包含實體作為承載的相關信息,以及其位置作為標頭。 標題 Location: string |
|
Other Status Codes |
發生錯誤。 |
安全性
Ocp-Apim-Subscription-Key
在這裡提供您的認知服務帳戶金鑰。
類型:
apiKey
位於:
header
範例
Create a dataset with content url |
Create dataset from data blocks |
Create a dataset with content url
範例要求
POST {endpoint}/speechtotext/datasets?api-version=2024-11-15
{
"displayName": "My speech dataset name",
"description": "My speech dataset description",
"locale": "en-US",
"kind": "Acoustic",
"contentUrl": "https://contoso.com/location"
}
範例回覆
Location: https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15",
"displayName": "Acoustic dataset",
"locale": "en-US",
"createdDateTime": "2019-01-07T11:34:12Z",
"lastActionDateTime": "2019-01-07T11:36:07Z",
"kind": "Acoustic",
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1/files?api-version=2024-11-15"
},
"properties": {
"acceptedLineCount": 11,
"rejectedLineCount": 2,
"durationMilliseconds": 252000,
"textNormalizationKind": "Default"
},
"contentUrl": "https://www.contoso.com/acousticdata/sourcelocation",
"status": "Succeeded"
}
Create dataset from data blocks
範例要求
POST {endpoint}/speechtotext/datasets?api-version=2024-11-15
{
"displayName": "My speech dataset name",
"description": "My speech dataset description",
"locale": "en-US",
"kind": "Acoustic"
}
範例回覆
{
"self": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15",
"displayName": "Acoustic dataset",
"locale": "en-US",
"createdDateTime": "2019-01-07T11:34:12Z",
"lastActionDateTime": "2019-01-07T11:36:07Z",
"kind": "Acoustic",
"links": {
"files": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15/files?api-version=2024-11-15",
"commitBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15/blocks:commit?api-version=2024-11-15",
"listBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15/blocks?api-version=2024-11-15",
"uploadBlocks": "https://westus.api.cognitive.microsoft.com/speechtotext/datasets/9d5f4100-5f8e-4dd6-bd83-9bbbf50d57f1?api-version=2024-11-15/blocks?api-version=2024-11-15"
},
"status": "NotStarted"
}
定義
名稱 | Description |
---|---|
Dataset |
數據 |
Dataset |
DatasetKind |
Dataset |
DatasetLinks |
Dataset |
DatasetProperties |
Detailed |
DetailedErrorCode |
Entity |
EntityError |
Error |
錯誤 |
Error |
ErrorCode |
Inner |
InnerError |
Status |
地位 |
Text |
TextNormalizationKind |
Dataset
數據
名稱 | 類型 | Description |
---|---|---|
contentUrl |
string |
數據集數據的 URL。 |
createdDateTime |
string |
物件建立時的時間戳。 時間戳會編碼為 ISO 8601 日期和時間格式(“YYYY-MM-DDThh:mm:ssZ”,請參閱 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations)。 |
customProperties |
object |
此實體的自定義屬性。 允許的索引鍵長度上限為 64 個字元,允許的最大值長度為 256 個字元,允許的項目計數為 10。 |
description |
string |
物件的描述。 |
displayName |
string |
對象的顯示名稱。 |
kind |
DatasetKind |
|
lastActionDateTime |
string |
輸入目前狀態時的時間戳。 時間戳會編碼為 ISO 8601 日期和時間格式(“YYYY-MM-DDThh:mm:ssZ”,請參閱 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations)。 |
links |
DatasetLinks |
|
locale |
string |
自主數據的地區設定。 |
properties |
DatasetProperties |
|
self |
string |
此實體的位置。 |
status |
地位 |
DatasetKind
DatasetKind
名稱 | 類型 | Description |
---|---|---|
Acoustic |
string |
原音數據集。 |
AudioFiles |
string |
音訊檔案數據集。 |
Language |
string |
語言數據集。 |
LanguageMarkdown |
string |
語言 Markdown 數據集。 |
OutputFormatting |
string |
包含規則的數據集,可自定義反向文字正規化、大寫、重新調整、粗話,以及定義數據集驗證的測試 |
Pronunciation |
string |
發音數據集。 |
DatasetLinks
DatasetLinks
名稱 | 類型 | Description |
---|---|---|
commitBlocks |
string |
使用區塊上傳數據集時,要認可區塊清單的位置。 如需詳細資訊,請參閱作業「Datasets_CommitBlocks」。 |
files |
string |
取得此實體所有檔案的位置。 如需詳細資訊,請參閱作業「Datasets_ListFiles」。 |
listBlocks |
string |
使用區塊上傳數據集時,列出此實體已上傳區塊的位置。 如需詳細資訊,請參閱作業「Datasets_GetBlocks」。 |
uploadBlocks |
string |
使用區塊上傳數據集時,要上傳區塊的位置。 如需詳細資訊,請參閱作業「Datasets_UploadBlock」。 |
DatasetProperties
DatasetProperties
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
acceptedLineCount |
integer |
此數據集接受的行數。 |
|
durationMilliseconds |
integer |
0 |
如果數據集包含音訊檔案,則數據集的總持續時間以毫秒為單位。 不支援大於 2^53-1 的持續時間,以確保與 JavaScript 整數相容。 |
error |
EntityError |
||
rejectedLineCount |
integer |
此數據集拒絕的行數。 |
|
textNormalizationKind |
TextNormalizationKind |
DetailedErrorCode
DetailedErrorCode
名稱 | 類型 | Description |
---|---|---|
AudioLengthLimitExceeded |
string |
音訊檔案超過允許的持續時間上限。 |
BadChannelConfiguration |
string |
數據中的音訊通道、組態或應用程式的需求不符。 |
DataImportFailed |
string |
數據匯入失敗。 |
DeleteNotAllowed |
string |
不允許刪除。 |
DeployNotAllowed |
string |
不允許部署。 |
DeployingFailedModel |
string |
部署失敗的模型。 |
EmptyAudioFile |
string |
音訊檔案是空的。 |
EmptyRequest |
string |
空白要求。 |
EndpointCannotBeDefault |
string |
端點不可為預設值。 |
EndpointLoggingNotSupported |
string |
不支援端點記錄。 |
EndpointNotUpdatable |
string |
端點無法更新。 |
EndpointWithoutLogging |
string |
沒有記錄的端點。 |
ExceededNumberOfRecordingsUris |
string |
超過錄製 URI 的數目。 |
FailedDataset |
string |
失敗的數據集。 |
Forbidden |
string |
禁止。 |
InUseViolation |
string |
在使用違規中。 |
InaccessibleCustomerStorage |
string |
無法存取的客戶記憶體。 |
InvalidAdaptationMapping |
string |
無效的適應對應。 |
InvalidAudioFormat |
string |
不支援輸入音訊的格式。 |
InvalidBaseModel |
string |
基底模型無效。 |
InvalidCallbackUri |
string |
無效的回呼 URI。 |
InvalidChannelSpecification |
string |
不支援在轉譯要求中選取通道(例如,未選取 0 或 1)。 |
InvalidChannels |
string |
無效的通道。 |
InvalidCollection |
string |
無效的集合。 |
InvalidDataset |
string |
無效的數據集。 |
InvalidDocument |
string |
無效的檔。 |
InvalidDocumentBatch |
string |
檔批次無效。 |
InvalidLocale |
string |
地區設定無效。 |
InvalidLogDate |
string |
無效的記錄日期。 |
InvalidLogEndTime |
string |
無效的記錄結束時間。 |
InvalidLogId |
string |
無效的記錄標識碼。 |
InvalidLogStartTime |
string |
無效的記錄開始時間。 |
InvalidModel |
string |
無效的模型。 |
InvalidModelUri |
string |
無效的模型 URI。 |
InvalidParameter |
string |
無效的參數。 |
InvalidParameterValue |
string |
無效的參數值。 |
InvalidPayload |
string |
無效的承載。 |
InvalidPermissions |
string |
許可權無效。 |
InvalidPrerequisite |
string |
無效的必要條件。 |
InvalidProductId |
string |
無效的產品標識碼。 |
InvalidProject |
string |
無效的專案。 |
InvalidProjectKind |
string |
無效的項目種類。 |
InvalidRecordingsUri |
string |
無效的錄製 URI。 |
InvalidRequestBodyFormat |
string |
要求本文格式無效。 |
InvalidSasValidityDuration |
string |
無效的 sas 有效性持續時間。 |
InvalidSkipTokenForLogs |
string |
記錄的略過令牌無效。 |
InvalidSourceAzureResourceId |
string |
來源 Azure 資源標識碼無效。 |
InvalidSubscription |
string |
無效的訂用帳戶。 |
InvalidTest |
string |
無效的測試。 |
InvalidTimeToLive |
string |
存留時間無效。 |
InvalidTopForLogs |
string |
記錄的頂端無效。 |
InvalidTranscription |
string |
無效的轉譯。 |
InvalidWebHookEventKind |
string |
無效的 Web 攔截事件種類。 |
MissingInputRecords |
string |
遺漏輸入記錄。 |
ModelCopyAuthorizationExpired |
string |
過期的 ModelCopyAuthorization。 |
ModelDeploymentNotCompleteState |
string |
模型部署未完成狀態。 |
ModelDeprecated |
string |
模型已被取代。 |
ModelExists |
string |
模型存在。 |
ModelMismatch |
string |
模型不符。 |
ModelNotDeployable |
string |
模型不可部署。 |
ModelVersionIncorrect |
string |
模型版本不正確。 |
MultipleLanguagesIdentified |
string |
語言識別可辨識多種語言。 無法判斷任何佔主導地位的語言。 |
NoLanguageIdentified |
string |
語言識別無法辨識任何語言。 |
NoUtf8WithBom |
string |
沒有 utf8 與 bom。 |
OnlyOneOfUrlsOrContainerOrDataset |
string |
只有一個 URL 或容器或數據集。 |
ProjectGenderMismatch |
string |
專案性別不符。 |
QuotaViolation |
string |
配額違規。 |
SingleDefaultEndpoint |
string |
單一預設端點。 |
SkuLimitsExist |
string |
Sku 限制存在。 |
SubscriptionNotFound |
string |
找不到訂用帳戶。 |
UnexpectedError |
string |
未預期的錯誤。 |
UnsupportedClassBasedAdaptation |
string |
不支援的類別型調整。 |
UnsupportedDelta |
string |
不支持的差異。 |
UnsupportedDynamicConfiguration |
string |
不支援的動態設定。 |
UnsupportedFilter |
string |
不支援的篩選。 |
UnsupportedLanguageCode |
string |
不支援的語言代碼。 |
UnsupportedOrderBy |
string |
不支援的順序依據。 |
UnsupportedPagination |
string |
不支援的分頁。 |
UnsupportedTimeRange |
string |
不支援的時間範圍。 |
EntityError
EntityError
名稱 | 類型 | Description |
---|---|---|
code |
string |
此錯誤的程序代碼。 |
message |
string |
此錯誤的訊息。 |
Error
錯誤
名稱 | 類型 | Description |
---|---|---|
code |
ErrorCode |
|
details |
Error[] |
有關錯誤和/或預期原則的其他支持詳細數據。 |
innerError |
InnerError |
|
message |
string |
高階錯誤訊息。 |
target |
string |
錯誤的來源。 例如,如果檔無效,則會是「檔」或「文件標識碼」。 |
ErrorCode
ErrorCode
名稱 | 類型 | Description |
---|---|---|
Conflict |
string |
表示衝突錯誤碼。 |
Forbidden |
string |
表示禁止的錯誤碼。 |
InternalCommunicationFailed |
string |
表示內部通訊失敗的錯誤碼。 |
InternalServerError |
string |
表示內部伺服器錯誤碼。 |
InvalidArgument |
string |
表示無效的自變數錯誤碼。 |
InvalidRequest |
string |
表示無效的要求錯誤碼。 |
NotAllowed |
string |
表示不允許的錯誤碼。 |
NotFound |
string |
表示找不到的錯誤碼。 |
PipelineError |
string |
表示管線錯誤碼。 |
ServiceUnavailable |
string |
表示服務無法使用的錯誤碼。 |
TooManyRequests |
string |
表示太多要求錯誤碼。 |
Unauthorized |
string |
表示未經授權的錯誤碼。 |
UnprocessableEntity |
string |
表示無法處理的實體錯誤碼。 |
UnsupportedMediaType |
string |
表示不支援的媒體類型錯誤碼。 |
InnerError
InnerError
名稱 | 類型 | Description |
---|---|---|
code |
DetailedErrorCode |
|
details |
object |
有關錯誤和/或預期原則的其他支持詳細數據。 |
innerError |
InnerError |
|
message |
string |
高階錯誤訊息。 |
target |
string |
錯誤的來源。 例如,如果檔無效,則會是「檔」或「文件標識碼」。 |
Status
地位
名稱 | 類型 | Description |
---|---|---|
Failed |
string |
長時間執行的作業失敗。 |
NotStarted |
string |
長時間執行的作業尚未啟動。 |
Running |
string |
長時間執行的作業目前正在處理中。 |
Succeeded |
string |
長時間執行的作業已順利完成。 |
TextNormalizationKind
TextNormalizationKind
名稱 | 類型 | Description |
---|---|---|
Default |
string |
默認文字正規化 (例如 '2 到 3' 取代為 en-US中的 'two to 3')。 |
None |
string |
不會將文字正規化套用至輸入文字。 這是覆寫選項,只有在上傳之前將文字正規化時,才應該使用。 |