Delen via


Code migreren van v3.0 naar v3.1 van de REST API

De REST API voor spraak-naar-tekst wordt gebruikt voor snelle transcriptie, batchtranscriptie en aangepaste spraak. Wijzigingen van versie 3.0 in 3.1 worden beschreven in de onderstaande secties.

Belangrijk

Rest API-versie 2024-11-15 voor spraak-naar-tekst is de nieuwste versie die algemeen beschikbaar is.

  • De REST API-versie 2024-05-15-preview voor spraak-naar-tekst wordt buiten gebruik gesteld op een datum die moet worden aangekondigd.
  • Spraak-naar-tekst-REST APIv3.0, v3.1, v3.2, en 3.2-preview.2 3.2-preview.1wordt buiten gebruik gesteld op 1 april 2026.

Zie de migratiehandleidingen Speech to text rest API v3.0 naar v3.1, v3.1 naar v3.2 en v3.2 naar 2024-11-15 voor meer informatie over het upgraden.

Basispad

U moet het basispad in uw code bijwerken van /speechtotext/v3.0 naar /speechtotext/v3.1. Als u bijvoorbeeld basismodellen in de eastus regio wilt ophalen, gebruikt https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base u in plaats van https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Let op deze andere wijzigingen:

  • De /models/{id}/copyto bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /models/{id}:copyto bewerking (inclusief ':') in versie 3.1.
  • De /webhooks/{id}/ping bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:ping bewerking (inclusief ':') in versie 3.1.
  • De /webhooks/{id}/test bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:test bewerking (inclusief ':') in versie 3.1.

Zie bewerkings-id's verderop in deze handleiding voor meer informatie.

Batchtranscriptie

Notitie

Gebruik Spraak niet voor tekst-REST API v3.0 om een transcriptie op te halen die is gemaakt via Spraak naar tekst REST API v3.1. U ziet een foutbericht, zoals het volgende: 'De API-versie kan niet worden gebruikt voor toegang tot deze transcriptie. Gebruik API-versie v3.1 of hoger.

In de Transcriptions_Create bewerking worden de volgende drie eigenschappen toegevoegd:

  • De displayFormWordLevelTimestampsEnabled eigenschap kan worden gebruikt om het rapporteren van tijdstempels op woordniveau in te schakelen in de weergavevorm van de transcriptieresultaten. De resultaten worden geretourneerd in de displayWords eigenschap van het transcriptiebestand.
  • De diarization eigenschap kan worden gebruikt om hints op te geven voor het minimum- en maximum aantal luidsprekerlabels dat moet worden gegenereerd bij het uitvoeren van optionele diarisatie (sprekerscheiding). Met deze functie kan de service nu sprekerlabels genereren voor meer dan twee luidsprekers. Als u deze eigenschap wilt gebruiken, moet u de diarizationEnabled eigenschap ook instellen op true. Met de v3.1-API hebben we het aantal sprekers verhoogd dat kan worden geïdentificeerd via diarisatie van de twee luidsprekers die worden ondersteund door de v3.0-API. Het is raadzaam om het aantal luidsprekers onder de 30 te houden voor betere prestaties.
  • De languageIdentification eigenschap kan worden gebruikt om instellingen voor taalidentificatie op te geven voor de invoer voorafgaand aan transcriptie. Maximaal 10 kandidaat-landinstellingen worden ondersteund voor taalidentificatie. De geretourneerde transcriptie bevat een nieuwe locale eigenschap voor de herkende taal of de landinstelling die u hebt opgegeven.

De filter eigenschap wordt toegevoegd aan de bewerkingen Transcriptions_List, Transcriptions_ListFiles en Projects_ListTranscriptions . De filter expressie kan worden gebruikt om een subset van de beschikbare resources te selecteren. U kunt filteren op displayName, description, createdDateTime, lastActionDateTime, , , en status.locale Bijvoorbeeld: filter=createdDateTime gt 2022-02-01T11:00:00Z

Als u webhook gebruikt voor het ontvangen van meldingen over transcriptiestatus, moet u er rekening mee houden dat de webhooks die zijn gemaakt via V3.0 API geen meldingen kunnen ontvangen voor V3.1-transcriptieaanvragen. U moet een nieuw webhook-eindpunt maken via V3.1 API om meldingen voor V3.1-transcriptieaanvragen te kunnen ontvangen.

Aangepaste spraak

Gegevenssets

De volgende bewerkingen worden toegevoegd voor het uploaden en beheren van meerdere gegevensblokken voor een gegevensset:

  • Datasets_UploadBlock: een blok met gegevens voor de gegevensset uploaden. De maximale grootte van het blok is 8MiB.
  • Datasets_GetBlocks: haal de lijst met geüploade blokken voor deze gegevensset op.
  • Datasets_CommitBlocks : doorvoeren van de blokkeringslijst om het uploaden van de gegevensset te voltooien.

Ter ondersteuning van modelaanpassing met gestructureerde tekst in Markdown-gegevens ondersteunt de Datasets_Create bewerking nu het gegevenstype LanguageMarkdown . Zie gegevenssets uploaden voor meer informatie.

Modellen

De Models_ListBaseModels - en Models_GetBaseModel-bewerkingen retourneren informatie over het type aanpassing dat door elk basismodel wordt ondersteund.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

De bewerking Models_Create heeft een nieuwe customModelWeightPercent eigenschap waarin u het gewicht kunt opgeven dat wordt gebruikt wanneer het aangepaste taalmodel (getraind op basis van tekst zonder opmaak of gestructureerde tekst) wordt gecombineerd met het Basistaalmodel. Geldige waarden zijn gehele getallen tussen 1 en 100. De standaardwaarde is momenteel 30.

De filter eigenschap wordt toegevoegd aan de volgende bewerkingen:

De filter expressie kan worden gebruikt om een subset van de beschikbare resources te selecteren. U kunt filteren op displayName, description, createdDateTime, lastActionDateTime, , , status, , en locale.kind Bijvoorbeeld: filter=locale eq 'en-US'

De Models_ListFiles-bewerking toegevoegd om de bestanden op te halen van het model dat is geïdentificeerd door de opgegeven id.

De Models_GetFile-bewerking toegevoegd om één specifiek bestand (geïdentificeerd met fileId) op te halen uit een model (geïdentificeerd met id). Hiermee kunt u een ModelReport-bestand ophalen dat informatie biedt over de gegevens die tijdens de training worden verwerkt.

Bewerkings-id's

U moet het basispad in uw code bijwerken van /speechtotext/v3.0 naar /speechtotext/v3.1. Als u bijvoorbeeld basismodellen in de eastus regio wilt ophalen, gebruikt https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base u in plaats van https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

De naam van elk operationId in versie 3.1 wordt voorafgegaan door de objectnaam. Het voor 'Model maken' is bijvoorbeeld operationId gewijzigd van CreateModel in versie 3.0 in Models_Create in versie 3.1.

De /models/{id}/copyto bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /models/{id}:copyto bewerking (inclusief ':') in versie 3.1.

De /webhooks/{id}/ping bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:ping bewerking (inclusief ':') in versie 3.1.

De /webhooks/{id}/test bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:test bewerking (inclusief ':') in versie 3.1.

Volgende stappen