Code migreren van v3.0 naar v3.1 van de REST API
De REST API voor spraak-naar-tekst wordt gebruikt voor snelle transcriptie, batchtranscriptie en aangepaste spraak. Wijzigingen van versie 3.0 in 3.1 worden beschreven in de onderstaande secties.
Belangrijk
Rest API-versie 2024-11-15
voor spraak-naar-tekst is de nieuwste versie die algemeen beschikbaar is.
- De REST API-versie
2024-05-15-preview
voor spraak-naar-tekst wordt buiten gebruik gesteld op een datum die moet worden aangekondigd. - Spraak-naar-tekst-REST API
v3.0
,v3.1
,v3.2
, en3.2-preview.2
3.2-preview.1
wordt buiten gebruik gesteld op 1 april 2026.
Zie de migratiehandleidingen Speech to text rest API v3.0 naar v3.1, v3.1 naar v3.2 en v3.2 naar 2024-11-15 voor meer informatie over het upgraden.
Basispad
U moet het basispad in uw code bijwerken van /speechtotext/v3.0
naar /speechtotext/v3.1
. Als u bijvoorbeeld basismodellen in de eastus
regio wilt ophalen, gebruikt https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
u in plaats van https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Let op deze andere wijzigingen:
- De
/models/{id}/copyto
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de/models/{id}:copyto
bewerking (inclusief ':') in versie 3.1. - De
/webhooks/{id}/ping
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de/webhooks/{id}:ping
bewerking (inclusief ':') in versie 3.1. - De
/webhooks/{id}/test
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de/webhooks/{id}:test
bewerking (inclusief ':') in versie 3.1.
Zie bewerkings-id's verderop in deze handleiding voor meer informatie.
Batchtranscriptie
Notitie
Gebruik Spraak niet voor tekst-REST API v3.0 om een transcriptie op te halen die is gemaakt via Spraak naar tekst REST API v3.1. U ziet een foutbericht, zoals het volgende: 'De API-versie kan niet worden gebruikt voor toegang tot deze transcriptie. Gebruik API-versie v3.1 of hoger.
In de Transcriptions_Create bewerking worden de volgende drie eigenschappen toegevoegd:
- De
displayFormWordLevelTimestampsEnabled
eigenschap kan worden gebruikt om het rapporteren van tijdstempels op woordniveau in te schakelen in de weergavevorm van de transcriptieresultaten. De resultaten worden geretourneerd in dedisplayWords
eigenschap van het transcriptiebestand. - De
diarization
eigenschap kan worden gebruikt om hints op te geven voor het minimum- en maximum aantal luidsprekerlabels dat moet worden gegenereerd bij het uitvoeren van optionele diarisatie (sprekerscheiding). Met deze functie kan de service nu sprekerlabels genereren voor meer dan twee luidsprekers. Als u deze eigenschap wilt gebruiken, moet u dediarizationEnabled
eigenschap ook instellen optrue
. Met de v3.1-API hebben we het aantal sprekers verhoogd dat kan worden geïdentificeerd via diarisatie van de twee luidsprekers die worden ondersteund door de v3.0-API. Het is raadzaam om het aantal luidsprekers onder de 30 te houden voor betere prestaties. - De
languageIdentification
eigenschap kan worden gebruikt om instellingen voor taalidentificatie op te geven voor de invoer voorafgaand aan transcriptie. Maximaal 10 kandidaat-landinstellingen worden ondersteund voor taalidentificatie. De geretourneerde transcriptie bevat een nieuwelocale
eigenschap voor de herkende taal of de landinstelling die u hebt opgegeven.
De filter
eigenschap wordt toegevoegd aan de bewerkingen Transcriptions_List, Transcriptions_ListFiles en Projects_ListTranscriptions . De filter
expressie kan worden gebruikt om een subset van de beschikbare resources te selecteren. U kunt filteren op displayName
, description
, createdDateTime
, lastActionDateTime
, , , en status
.locale
Bijvoorbeeld: filter=createdDateTime gt 2022-02-01T11:00:00Z
Als u webhook gebruikt voor het ontvangen van meldingen over transcriptiestatus, moet u er rekening mee houden dat de webhooks die zijn gemaakt via V3.0 API geen meldingen kunnen ontvangen voor V3.1-transcriptieaanvragen. U moet een nieuw webhook-eindpunt maken via V3.1 API om meldingen voor V3.1-transcriptieaanvragen te kunnen ontvangen.
Aangepaste spraak
Gegevenssets
De volgende bewerkingen worden toegevoegd voor het uploaden en beheren van meerdere gegevensblokken voor een gegevensset:
- Datasets_UploadBlock: een blok met gegevens voor de gegevensset uploaden. De maximale grootte van het blok is 8MiB.
- Datasets_GetBlocks: haal de lijst met geüploade blokken voor deze gegevensset op.
- Datasets_CommitBlocks : doorvoeren van de blokkeringslijst om het uploaden van de gegevensset te voltooien.
Ter ondersteuning van modelaanpassing met gestructureerde tekst in Markdown-gegevens ondersteunt de Datasets_Create bewerking nu het gegevenstype LanguageMarkdown . Zie gegevenssets uploaden voor meer informatie.
Modellen
De Models_ListBaseModels - en Models_GetBaseModel-bewerkingen retourneren informatie over het type aanpassing dat door elk basismodel wordt ondersteund.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
De bewerking Models_Create heeft een nieuwe customModelWeightPercent
eigenschap waarin u het gewicht kunt opgeven dat wordt gebruikt wanneer het aangepaste taalmodel (getraind op basis van tekst zonder opmaak of gestructureerde tekst) wordt gecombineerd met het Basistaalmodel. Geldige waarden zijn gehele getallen tussen 1 en 100. De standaardwaarde is momenteel 30.
De filter
eigenschap wordt toegevoegd aan de volgende bewerkingen:
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Evaluations_List
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Projects_ListEvaluations
- Projects_ListModels
De filter
expressie kan worden gebruikt om een subset van de beschikbare resources te selecteren. U kunt filteren op displayName
, description
, createdDateTime
, lastActionDateTime
, , , status
, , en locale
.kind
Bijvoorbeeld: filter=locale eq 'en-US'
De Models_ListFiles-bewerking toegevoegd om de bestanden op te halen van het model dat is geïdentificeerd door de opgegeven id.
De Models_GetFile-bewerking toegevoegd om één specifiek bestand (geïdentificeerd met fileId) op te halen uit een model (geïdentificeerd met id). Hiermee kunt u een ModelReport-bestand ophalen dat informatie biedt over de gegevens die tijdens de training worden verwerkt.
Bewerkings-id's
U moet het basispad in uw code bijwerken van /speechtotext/v3.0
naar /speechtotext/v3.1
. Als u bijvoorbeeld basismodellen in de eastus
regio wilt ophalen, gebruikt https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
u in plaats van https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
De naam van elk operationId
in versie 3.1 wordt voorafgegaan door de objectnaam. Het voor 'Model maken' is bijvoorbeeld operationId
gewijzigd van CreateModel in versie 3.0 in Models_Create in versie 3.1.
De /models/{id}/copyto
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /models/{id}:copyto
bewerking (inclusief ':') in versie 3.1.
De /webhooks/{id}/ping
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:ping
bewerking (inclusief ':') in versie 3.1.
De /webhooks/{id}/test
bewerking (inclusief '/') in versie 3.0 wordt vervangen door de /webhooks/{id}:test
bewerking (inclusief ':') in versie 3.1.