Batchtranscriptieresultaten ophalen
Als u transcriptieresultaten wilt ophalen, controleert u eerst de status van de transcriptietaak. Als de taak is voltooid, kunt u het transcripties- en transcriptierapport ophalen .
Transcriptiestatus ophalen
Als u de status van de transcriptietaak wilt ophalen, roept u de Transcriptions_Get bewerking van de REST API voor spraak naar tekst aan.
Belangrijk
Batchtranscriptietaken worden gepland op basis van best effort. Tijdens piekuren kan het tot 30 minuten of langer duren voordat een transcriptietaak wordt verwerkt. De meeste tijd tijdens de uitvoering is Running
de transcriptiestatus. Dit komt doordat aan de taak de Running
status wordt toegewezen op het moment dat deze wordt verplaatst naar het back-endsysteem voor batchtranscriptie. Wanneer het basismodel wordt gebruikt, vindt deze toewijzing vrijwel onmiddellijk plaats; het is iets langzamer voor aangepaste modellen. De hoeveelheid tijd die een transcriptietaak in de Running
status besteedt, komt dus niet overeen met de werkelijke transcriptietijd, maar bevat ook wachttijden in de interne wachtrijen.
Maak een HTTP GET-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Vervang YourTranscriptionId
door uw transcriptie-id, vervang deze door YourSubscriptionKey
uw Spraak-resourcesleutel en vervang deze door YourServiceRegion
uw spraakresourceregio.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
U ontvangt een antwoordtekst in de volgende indeling:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S",
"languageIdentification": {
"candidateLocales": [
"en-US",
"de-DE",
"es-ES"
]
}
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
De status
eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded
.
Belangrijk
Batchtranscriptietaken worden gepland op basis van best effort. Tijdens piekuren kan het tot 30 minuten of langer duren voordat een transcriptietaak wordt verwerkt. De meeste tijd tijdens de uitvoering is Running
de transcriptiestatus. Dit komt doordat aan de taak de Running
status wordt toegewezen op het moment dat deze wordt verplaatst naar het back-endsysteem voor batchtranscriptie. Wanneer het basismodel wordt gebruikt, vindt deze toewijzing vrijwel onmiddellijk plaats; het is iets langzamer voor aangepaste modellen. De hoeveelheid tijd die een transcriptietaak in de Running
status besteedt, komt dus niet overeen met de werkelijke transcriptietijd, maar bevat ook wachttijden in de interne wachtrijen.
Gebruik de spx batch transcription status
opdracht om de status van de transcriptietaak op te halen. Bouw de aanvraagparameters volgens de volgende instructies:
- Stel de
transcription
parameter in op de id van de transcriptie die u wilt ophalen.
Hier volgt een voorbeeld van een Speech CLI-opdracht om de transcriptiestatus op te halen:
spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId
U ontvangt een antwoordtekst in de volgende indeling:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S"
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
De status
eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded
.
Voer de volgende opdracht uit voor Speech CLI-hulp bij transcripties:
spx help batch transcription
Transcriptieresultaten ophalen
De Transcriptions_ListFiles-bewerking retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.
Maak een HTTP GET-aanvraag met behulp van de URI 'bestanden' uit de vorige antwoordtekst. Vervang YourTranscriptionId
door uw transcriptie-id, vervang deze door YourSubscriptionKey
uw Spraak-resourcesleutel en vervang deze door YourServiceRegion
uw spraakresourceregio.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
U ontvangt een antwoordtekst in de volgende indeling:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
De locatie van elke transcriptie- en transcriptierapportbestanden met meer details wordt geretourneerd in de hoofdtekst van het antwoord. De contentUrl
eigenschap bevat de URL naar het transcriptierapportbestand ("kind": "Transcription"
) of transcriptierapport ("kind": "TranscriptionReport"
).
Als u geen container hebt opgegeven in de eigenschap van de destinationContainerUrl
transcriptieaanvraag, worden de resultaten opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.
De spx batch transcription list
opdracht retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.
- Stel de vereiste
files
vlag in. - Stel de vereiste
transcription
parameter in op de id van de transcriptie die u wilt ophalen uit logboeken.
Hier volgt een voorbeeld van een Speech CLI-opdracht die een lijst met resultaatbestanden voor een transcriptie ophaalt:
spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId
U ontvangt een antwoordtekst in de volgende indeling:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
De locatie van elke transcriptie- en transcriptierapportbestanden met meer details wordt geretourneerd in de hoofdtekst van het antwoord. De contentUrl
eigenschap bevat de URL naar het transcriptierapportbestand ("kind": "Transcription"
) of transcriptierapport ("kind": "TranscriptionReport"
).
De resultaten worden standaard opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.
Transcriptierapportbestand
Er is één transcriptierapportbestand opgegeven voor elke ingediende batchtranscriptietaak.
De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.
{
"successfulTranscriptionsCount": 2,
"failedTranscriptionsCount": 0,
"details": [
{
"source": "https://crbn.us/hello.wav",
"status": "Succeeded"
},
{
"source": "https://crbn.us/whatstheweatherlike.wav",
"status": "Succeeded"
}
]
}
Resultaatbestand transcriptie
Er wordt één transcriptieresultaatbestand opgegeven voor elk getranscribeerd audiobestand.
De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.
{
"source": "...",
"timestamp": "2023-07-10T14:28:16Z",
"durationInTicks": 25800000,
"duration": "PT2.58S",
"combinedRecognizedPhrases": [
{
"channel": 0,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world."
}
],
"recognizedPhrases": [
{
"recognitionStatus": "Success",
"channel": 0,
"offset": "PT0.76S",
"duration": "PT1.32S",
"offsetInTicks": 7600000.0,
"durationInTicks": 13200000.0,
"nBest": [
{
"confidence": 0.5643338,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world.",
"displayWords": [
{
"displayText": "Hello",
"offset": "PT0.76S",
"duration": "PT0.76S",
"offsetInTicks": 7600000.0,
"durationInTicks": 7600000.0
},
{
"displayText": "world.",
"offset": "PT1.52S",
"duration": "PT0.56S",
"offsetInTicks": 15200000.0,
"durationInTicks": 5600000.0
}
]
},
{
"confidence": 0.1769063,
"lexical": "helloworld",
"itn": "helloworld",
"maskedITN": "helloworld",
"display": "helloworld"
},
{
"confidence": 0.49964225,
"lexical": "hello worlds",
"itn": "hello worlds",
"maskedITN": "hello worlds",
"display": "hello worlds"
},
{
"confidence": 0.4995761,
"lexical": "hello worm",
"itn": "hello worm",
"maskedITN": "hello worm",
"display": "hello worm"
},
{
"confidence": 0.49418187,
"lexical": "hello word",
"itn": "hello word",
"maskedITN": "hello word",
"display": "hello word"
}
]
}
]
}
Afhankelijk van de aanvraagparameters die zijn ingesteld bij het maken van de transcriptietaak, kan het transcriptiebestand de volgende resultaateigenschappen bevatten.
Eigenschappen | Beschrijving |
---|---|
channel |
Het kanaalnummer van de resultaten. Voor stereo-audiostreams worden de linker- en rechterkanalen gesplitst tijdens de transcriptie. Er wordt een JSON-resultaatbestand gemaakt voor elk invoeraudiobestand. |
combinedRecognizedPhrases |
De samengevoegde resultaten van alle zinnen voor het kanaal. |
confidence |
De betrouwbaarheidswaarde voor de herkenning. |
display |
De weergavevorm van de herkende tekst. Toegevoegde interpunctie en hoofdlettergebruik zijn opgenomen. |
displayWords |
De tijdstempels voor elk woord van de transcriptie. De displayFormWordLevelTimestampsEnabled aanvraageigenschap moet worden ingesteld op true , anders is deze eigenschap niet aanwezig.Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1 en hoger. |
duration |
De audioduur. De waarde is een ISO 8601 gecodeerde duur. |
durationInTicks |
De audioduur in tikken (één maatstreepje is 100 nanoseconden). |
itn |
De inverse tekst genormaliseerde (ITN) vorm van de herkende tekst. Afkortingen zoals 'Doctor Smith' op 'Dr Smith', telefoonnummers en andere transformaties worden toegepast. |
lexical |
De werkelijke woorden herkend. |
locale |
De landinstelling die is geïdentificeerd op basis van de invoer van de audio. De languageIdentification aanvraageigenschap moet worden ingesteld, anders is deze eigenschap niet aanwezig.Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1 en hoger. |
maskedITN |
Het ITN-formulier waarop grof taalmaskering is toegepast. |
nBest |
Een lijst met mogelijke transcripties voor de huidige woordgroep met betrouwbaarheid. |
offset |
De verschuiving in audio van deze zin. De waarde is een ISO 8601 gecodeerde duur. |
offsetInTicks |
De verschuiving in audio van deze zin in tikken (één maatstreepje is 100 nanoseconden). |
recognitionStatus |
De herkenningsstatus. Bijvoorbeeld: 'Geslaagd' of 'Mislukt'. |
recognizedPhrases |
De lijst met resultaten voor elke woordgroep. |
source |
De URL die is opgegeven als de invoeraudiobron. De bron komt overeen met de contentUrls eigenschap of contentContainerUrl aanvraag. De source eigenschap is de enige manier om de audio-invoer voor een transcriptie te bevestigen. |
speaker |
De geïdentificeerde spreker. De diarization eigenschappen en diarizationEnabled aanvragen moeten worden ingesteld, anders is deze eigenschap niet aanwezig. |
timestamp |
De aanmaakdatum en -tijd van de transcriptie. De waarde is een met ISO 8601 gecodeerde tijdstempel. |
words |
Een lijst met resultaten met lexicale tekst voor elk woord van de woordgroep. De wordLevelTimestampsEnabled aanvraageigenschap moet worden ingesteld op true , anders is deze eigenschap niet aanwezig. |