Batchtranscriptieresultaten ophalen

Artikel
10/16/2024

Als u transcriptieresultaten wilt ophalen, controleert u eerst de status van de transcriptietaak. Als de taak is voltooid, kunt u het transcripties- en transcriptierapport ophalen .

Transcriptiestatus ophalen

Als u de status van de transcriptietaak wilt ophalen, roept u de Transcriptions_Get bewerking van de REST API voor spraak naar tekst aan.

Belangrijk

Batchtranscriptietaken worden gepland op basis van best effort. Tijdens piekuren kan het tot 30 minuten of langer duren voordat een transcriptietaak wordt verwerkt. De meeste tijd tijdens de uitvoering is Runningde transcriptiestatus. Dit komt doordat aan de taak de Running status wordt toegewezen op het moment dat deze wordt verplaatst naar het back-endsysteem voor batchtranscriptie. Wanneer het basismodel wordt gebruikt, vindt deze toewijzing vrijwel onmiddellijk plaats; het is iets langzamer voor aangepaste modellen. De hoeveelheid tijd die een transcriptietaak in de Running status besteedt, komt dus niet overeen met de werkelijke transcriptietijd, maar bevat ook wachttijden in de interne wachtrijen.

Maak een HTTP GET-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Vervang YourTranscriptionId door uw transcriptie-id, vervang deze door YourSubscriptionKey uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

De status eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded.

Belangrijk

Gebruik de spx batch transcription status opdracht om de status van de transcriptietaak op te halen. Bouw de aanvraagparameters volgens de volgende instructies:

Stel de transcription parameter in op de id van de transcriptie die u wilt ophalen.

Hier volgt een voorbeeld van een Speech CLI-opdracht om de transcriptiestatus op te halen:

spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S"
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

De status eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded.

Voer de volgende opdracht uit voor Speech CLI-hulp bij transcripties:

spx help batch transcription

Transcriptieresultaten ophalen

De Transcriptions_ListFiles-bewerking retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.

Maak een HTTP GET-aanvraag met behulp van de URI 'bestanden' uit de vorige antwoordtekst. Vervang YourTranscriptionId door uw transcriptie-id, vervang deze door YourSubscriptionKey uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

De locatie van elke transcriptie- en transcriptierapportbestanden met meer details wordt geretourneerd in de hoofdtekst van het antwoord. De contentUrl eigenschap bevat de URL naar het transcriptierapportbestand ("kind": "Transcription") of transcriptierapport ("kind": "TranscriptionReport").

Als u geen container hebt opgegeven in de eigenschap van de destinationContainerUrl transcriptieaanvraag, worden de resultaten opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.

De spx batch transcription list opdracht retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.

Stel de vereiste files vlag in.
Stel de vereiste transcription parameter in op de id van de transcriptie die u wilt ophalen uit logboeken.

Hier volgt een voorbeeld van een Speech CLI-opdracht die een lijst met resultaatbestanden voor een transcriptie ophaalt:

spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId

U ontvangt een antwoordtekst in de volgende indeling:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

De resultaten worden standaard opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.

Transcriptierapportbestand

Er is één transcriptierapportbestand opgegeven voor elke ingediende batchtranscriptietaak.

De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.

{
  "successfulTranscriptionsCount": 2,
  "failedTranscriptionsCount": 0,
  "details": [
    {
      "source": "https://crbn.us/hello.wav",
      "status": "Succeeded"
    },
    {
      "source": "https://crbn.us/whatstheweatherlike.wav",
      "status": "Succeeded"
    }
  ]
}

Resultaatbestand transcriptie

Er wordt één transcriptieresultaatbestand opgegeven voor elk getranscribeerd audiobestand.

De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.

{
  "source": "...",
  "timestamp": "2023-07-10T14:28:16Z",
  "durationInTicks": 25800000,
  "duration": "PT2.58S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "channel": 0,
      "offset": "PT0.76S",
      "duration": "PT1.32S",
      "offsetInTicks": 7600000.0,
      "durationInTicks": 13200000.0,
      "nBest": [
        {
          "confidence": 0.5643338,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "displayWords": [
            {
              "displayText": "Hello",
              "offset": "PT0.76S",
              "duration": "PT0.76S",
              "offsetInTicks": 7600000.0,
              "durationInTicks": 7600000.0
            },
            {
              "displayText": "world.",
              "offset": "PT1.52S",
              "duration": "PT0.56S",
              "offsetInTicks": 15200000.0,
              "durationInTicks": 5600000.0
            }
          ]
        },
        {
          "confidence": 0.1769063,
          "lexical": "helloworld",
          "itn": "helloworld",
          "maskedITN": "helloworld",
          "display": "helloworld"
        },
        {
          "confidence": 0.49964225,
          "lexical": "hello worlds",
          "itn": "hello worlds",
          "maskedITN": "hello worlds",
          "display": "hello worlds"
        },
        {
          "confidence": 0.4995761,
          "lexical": "hello worm",
          "itn": "hello worm",
          "maskedITN": "hello worm",
          "display": "hello worm"
        },
        {
          "confidence": 0.49418187,
          "lexical": "hello word",
          "itn": "hello word",
          "maskedITN": "hello word",
          "display": "hello word"
        }
      ]
    }
  ]
}

Afhankelijk van de aanvraagparameters die zijn ingesteld bij het maken van de transcriptietaak, kan het transcriptiebestand de volgende resultaateigenschappen bevatten.

Eigenschappen	Beschrijving
`channel`	Het kanaalnummer van de resultaten. Voor stereo-audiostreams worden de linker- en rechterkanalen gesplitst tijdens de transcriptie. Er wordt een JSON-resultaatbestand gemaakt voor elk invoeraudiobestand.
`combinedRecognizedPhrases`	De samengevoegde resultaten van alle zinnen voor het kanaal.
`confidence`	De betrouwbaarheidswaarde voor de herkenning.
`display`	De weergavevorm van de herkende tekst. Toegevoegde interpunctie en hoofdlettergebruik zijn opgenomen.
`displayWords`	De tijdstempels voor elk woord van de transcriptie. De `displayFormWordLevelTimestampsEnabled` aanvraageigenschap moet worden ingesteld op `true`, anders is deze eigenschap niet aanwezig. Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1 en hoger.
`duration`	De audioduur. De waarde is een ISO 8601 gecodeerde duur.
`durationInTicks`	De audioduur in tikken (één maatstreepje is 100 nanoseconden).
`itn`	De inverse tekst genormaliseerde (ITN) vorm van de herkende tekst. Afkortingen zoals 'Doctor Smith' op 'Dr Smith', telefoonnummers en andere transformaties worden toegepast.
`lexical`	De werkelijke woorden herkend.
`locale`	De landinstelling die is geïdentificeerd op basis van de invoer van de audio. De `languageIdentification` aanvraageigenschap moet worden ingesteld, anders is deze eigenschap niet aanwezig. Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1 en hoger.
`maskedITN`	Het ITN-formulier waarop grof taalmaskering is toegepast.
`nBest`	Een lijst met mogelijke transcripties voor de huidige woordgroep met betrouwbaarheid.
`offset`	De verschuiving in audio van deze zin. De waarde is een ISO 8601 gecodeerde duur.
`offsetInTicks`	De verschuiving in audio van deze zin in tikken (één maatstreepje is 100 nanoseconden).
`recognitionStatus`	De herkenningsstatus. Bijvoorbeeld: 'Geslaagd' of 'Mislukt'.
`recognizedPhrases`	De lijst met resultaten voor elke woordgroep.
`source`	De URL die is opgegeven als de invoeraudiobron. De bron komt overeen met de `contentUrls` eigenschap of `contentContainerUrl` aanvraag. De `source` eigenschap is de enige manier om de audio-invoer voor een transcriptie te bevestigen.
`speaker`	De geïdentificeerde spreker. De `diarization` eigenschappen en `diarizationEnabled` aanvragen moeten worden ingesteld, anders is deze eigenschap niet aanwezig.
`timestamp`	De aanmaakdatum en -tijd van de transcriptie. De waarde is een met ISO 8601 gecodeerde tijdstempel.
`words`	Een lijst met resultaten met lexicale tekst voor elk woord van de woordgroep. De `wordLevelTimestampsEnabled` aanvraageigenschap moet worden ingesteld op `true`, anders is deze eigenschap niet aanwezig.

Delen via

Batchtranscriptieresultaten ophalen

Transcriptiestatus ophalen

Transcriptieresultaten ophalen

Transcriptierapportbestand

Resultaatbestand transcriptie

Volgende stappen

Feedback

Aanvullende resources