Získání výsledků dávkového přepisu
Pokud chcete získat výsledky přepisu, nejprve zkontrolujte stav úlohy přepisu. Pokud je úloha dokončená, můžete načíst přepisy a sestavu přepisu.
Získání stavu přepisu
Pokud chcete získat stav úlohy přepisu, zavolejte Transcriptions_Get operaci speech na textové rozhraní REST API.
Důležité
Úlohy dávkového přepisu se plánují na základě nejlepšího úsilí. Ve špičce může zpracování úlohy přepisu trvat až 30 minut nebo déle. Ve většině případů během provádění bude Running
stav přepisu . Důvodem je to, že úloha má přiřazený stav v okamžiku Running
, kdy se přesune do back-endového systému dávkového přepisu. Při použití základního modelu k tomuto přiřazení dojde téměř okamžitě; u vlastních modelů je o něco pomalejší. Doba, po kterou úloha přepisu stráví ve Running
stavu, neodpovídá skutečnému času přepisu, ale zahrnuje také dobu čekání v interních frontách.
Vytvořte požadavek HTTP GET pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu. Nahraďte YourTranscriptionId
id přepisu, nahraďte YourSubscriptionKey
klíčem prostředku služby Speech a nahraďte YourServiceRegion
oblastí prostředků služby Speech.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S",
"languageIdentification": {
"candidateLocales": [
"en-US",
"de-DE",
"es-ES"
]
}
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
Vlastnost status
označuje aktuální stav přepisů. Přepisy a sestava přepisu jsou k dispozici, pokud je Succeeded
stav přepisu .
Důležité
Úlohy dávkového přepisu se plánují na základě nejlepšího úsilí. Ve špičce může zpracování úlohy přepisu trvat až 30 minut nebo déle. Ve většině případů během provádění bude Running
stav přepisu . Důvodem je to, že úloha má přiřazený stav v okamžiku Running
, kdy se přesune do back-endového systému dávkového přepisu. Při použití základního modelu k tomuto přiřazení dojde téměř okamžitě; u vlastních modelů je o něco pomalejší. Doba, po kterou úloha přepisu stráví ve Running
stavu, neodpovídá skutečnému času přepisu, ale zahrnuje také dobu čekání v interních frontách.
Pokud chcete získat stav úlohy přepisu, použijte spx batch transcription status
příkaz. Parametry požadavku se sestaví podle následujících pokynů:
transcription
Nastavte parametr na ID přepisu, který chcete získat.
Tady je příklad příkazu Rozhraní příkazového řádku služby Speech, který získá stav přepisu:
spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S"
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
Vlastnost status
označuje aktuální stav přepisů. Přepisy a sestava přepisu jsou k dispozici, pokud je Succeeded
stav přepisu .
V případě nápovědy k rozhraní příkazového řádku služby Speech s přepisy spusťte následující příkaz:
spx help batch transcription
Získání výsledků přepisu
Operace Transcriptions_ListFiles vrátí seznam výsledných souborů pro přepis. Pro každou odeslanou úlohu dávkového přepisu je k dispozici soubor sestavy přepisu přepisu. Kromě toho se pro každý úspěšně přepisovaný zvukový soubor poskytuje jeden soubor přepisu (konečný výsledek).
Vytvořte požadavek HTTP GET pomocí identifikátoru URI "files" z předchozího textu odpovědi. Nahraďte YourTranscriptionId
id přepisu, nahraďte YourSubscriptionKey
klíčem prostředku služby Speech a nahraďte YourServiceRegion
oblastí prostředků služby Speech.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
Umístění jednotlivých souborů sestav přepisu a přepisu s dalšími podrobnostmi se vrátí v textu odpovědi. Vlastnost contentUrl
obsahuje adresu URL souboru přepisu ("kind": "Transcription"
) nebo sestavy přepisu ("kind": "TranscriptionReport"
).
Pokud jste ve destinationContainerUrl
vlastnosti žádosti o přepis nezadali kontejner, uloží se výsledky do kontejneru spravovaného Microsoftem. Při odstranění úlohy přepisu se odstraní také data výsledku přepisu.
Příkaz spx batch transcription list
vrátí seznam výsledných souborů pro přepis. Pro každou odeslanou úlohu dávkového přepisu je k dispozici soubor sestavy přepisu přepisu. Kromě toho se pro každý úspěšně přepisovaný zvukový soubor poskytuje jeden soubor přepisu (konečný výsledek).
- Nastavte požadovaný
files
příznak. - Nastavte požadovaný
transcription
parametr na ID přepisu, který chcete získat protokoly.
Tady je příklad příkazu Rozhraní příkazového řádku služby Speech, který získá seznam souborů výsledků pro přepis:
spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId
Měl by se zobrazit text odpovědi v následujícím formátu:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
Umístění jednotlivých souborů sestav přepisu a přepisu s dalšími podrobnostmi se vrátí v textu odpovědi. Vlastnost contentUrl
obsahuje adresu URL souboru přepisu ("kind": "Transcription"
) nebo sestavy přepisu ("kind": "TranscriptionReport"
).
Ve výchozím nastavení jsou výsledky uložené v kontejneru spravovaném Microsoftem. Při odstranění úlohy přepisu se odstraní také data výsledku přepisu.
Soubor sestavy přepisu
Pro každou odeslanou úlohu dávkového přepisu je k dispozici jeden soubor sestavy přepisu přepisu.
Obsah každého souboru výsledků přepisu je formátovaný jako JSON, jak je znázorněno v tomto příkladu.
{
"successfulTranscriptionsCount": 2,
"failedTranscriptionsCount": 0,
"details": [
{
"source": "https://crbn.us/hello.wav",
"status": "Succeeded"
},
{
"source": "https://crbn.us/whatstheweatherlike.wav",
"status": "Succeeded"
}
]
}
Soubor výsledků přepisu
Pro každý úspěšně přepisovaný zvukový soubor je k dispozici jeden soubor výsledků přepisu.
Obsah každého souboru výsledků přepisu je formátovaný jako JSON, jak je znázorněno v tomto příkladu.
{
"source": "...",
"timestamp": "2023-07-10T14:28:16Z",
"durationInTicks": 25800000,
"duration": "PT2.58S",
"combinedRecognizedPhrases": [
{
"channel": 0,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world."
}
],
"recognizedPhrases": [
{
"recognitionStatus": "Success",
"channel": 0,
"offset": "PT0.76S",
"duration": "PT1.32S",
"offsetInTicks": 7600000.0,
"durationInTicks": 13200000.0,
"nBest": [
{
"confidence": 0.5643338,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world.",
"displayWords": [
{
"displayText": "Hello",
"offset": "PT0.76S",
"duration": "PT0.76S",
"offsetInTicks": 7600000.0,
"durationInTicks": 7600000.0
},
{
"displayText": "world.",
"offset": "PT1.52S",
"duration": "PT0.56S",
"offsetInTicks": 15200000.0,
"durationInTicks": 5600000.0
}
]
},
{
"confidence": 0.1769063,
"lexical": "helloworld",
"itn": "helloworld",
"maskedITN": "helloworld",
"display": "helloworld"
},
{
"confidence": 0.49964225,
"lexical": "hello worlds",
"itn": "hello worlds",
"maskedITN": "hello worlds",
"display": "hello worlds"
},
{
"confidence": 0.4995761,
"lexical": "hello worm",
"itn": "hello worm",
"maskedITN": "hello worm",
"display": "hello worm"
},
{
"confidence": 0.49418187,
"lexical": "hello word",
"itn": "hello word",
"maskedITN": "hello word",
"display": "hello word"
}
]
}
]
}
V závislosti na parametrech požadavku nastavených při vytváření úlohy přepisu může soubor přepisu obsahovat následující vlastnosti výsledku.
Vlastnost | Popis |
---|---|
channel |
Číslo kanálu výsledků. U stereofonního zvukového streamu se během přepisu rozdělí kanály vlevo a vpravo. Pro každý vstupní zvukový soubor se vytvoří výsledný soubor JSON. |
combinedRecognizedPhrases |
Zřetězené výsledky všech frází pro kanál. |
confidence |
Hodnota spolehlivosti pro rozpoznávání. |
display |
Formát zobrazení rozpoznaného textu. Přidání interpunkce a velká písmena jsou zahrnuté. |
displayWords |
Časové razítka pro každé slovo přepisu. Vlastnost displayFormWordLevelTimestampsEnabled požadavku musí být nastavena na true hodnotu , jinak tato vlastnost není k dispozici.Poznámka: Tato vlastnost je k dispozici pouze u služby Speech pro text rozhraní REST API verze 3.1 a novější. |
duration |
Doba trvání zvuku. Hodnota je doba trvání kódování ISO 8601. |
durationInTicks |
Doba trvání zvuku v ticks (jedno z nich je 100 nanosekund). |
itn |
Formát rozpoznaného textu normalizovaného inverzního textu (ITN). Použijí se zkratky jako "Doctor Smith" na "Dr Smith", telefonní čísla a další transformace. |
lexical |
Rozpoznaná skutečná slova. |
locale |
Národní prostředí identifikované ze vstupu zvuku. Vlastnost languageIdentification požadavku musí být nastavená, jinak tato vlastnost není k dispozici.Poznámka: Tato vlastnost je k dispozici pouze u služby Speech pro text rozhraní REST API verze 3.1 a novější. |
maskedITN |
Formulář ITN s použitým maskováním vulgárních výrazů. |
nBest |
Seznam možných přepisů aktuální fráze s jistotami |
offset |
Posun zvuku této fráze. Hodnota je doba trvání kódování ISO 8601. |
offsetInTicks |
Posun zvuku této fráze v ticks (jedno z nich je 100 nanosekund). |
recognitionStatus |
Stav rozpoznávání. Příklad: "Úspěch" nebo "Selhání". |
recognizedPhrases |
Seznam výsledků pro každou frázi |
source |
Adresa URL, která byla zadaná jako vstupní zdroj zvuku. Zdroj odpovídá contentUrls vlastnosti nebo contentContainerUrl vlastnosti požadavku. Vlastnost source je jediným způsobem, jak potvrdit zvukový vstup pro přepis. |
speaker |
Identifikovaný mluvčí. Vlastnosti diarization a diarizationEnabled vlastnosti požadavku musí být nastaveny, jinak tato vlastnost není k dispozici. |
timestamp |
Datum a čas vytvoření přepisu. Hodnota je časové razítko kódované iso 8601. |
words |
Seznam výsledků s lexikálním textem pro každé slovo fráze. Vlastnost wordLevelTimestampsEnabled požadavku musí být nastavena na true hodnotu , jinak tato vlastnost není k dispozici. |