Migrowanie kodu z wersji 3.0 do wersji 3.1 interfejsu API REST
Interfejs API REST zamiany mowy na tekst jest używany do szybkiej transkrypcji, transkrypcji wsadowej i mowy niestandardowej. Zmiany z wersji 3.0 do 3.1 zostały opisane w poniższych sekcjach.
Ważne
Wersja 2024-11-15
interfejsu API REST zamiany mowy na tekst jest najnowszą wersją, która jest ogólnie dostępna.
- Wersja
2024-05-15-preview
interfejsu API REST zamiany mowy na tekst zostanie wycofana w dniu ogłoszenia. - Interfejs API
v3.0
REST zamiany mowy na tekst , ,3.2-preview.1
v3.1
v3.2
, i3.2-preview.2
zostanie wycofany 1 kwietnia 2026 r.
Aby uzyskać więcej informacji na temat uaktualniania, zobacz Przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do 3.1, 3.1 do 3.2 i 3.2 do 2024-11-15.
Ścieżka podstawowa
Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.0
do /speechtotext/v3.1
. Aby na przykład uzyskać modele podstawowe w eastus
regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Zanotuj inne zmiany:
- Operacja
/models/{id}/copyto
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację/models/{id}:copyto
(w tym ":") w wersji 3.1. - Operacja
/webhooks/{id}/ping
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację/webhooks/{id}:ping
(w tym ":") w wersji 3.1. - Operacja
/webhooks/{id}/test
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację/webhooks/{id}:test
(w tym ":") w wersji 3.1.
Aby uzyskać więcej informacji, zobacz Identyfikatory operacji w dalszej części tego przewodnika.
Transkrypcja wsadowa
Uwaga
Nie używaj mowy do tłumaczenia tekstu za pomocą interfejsu API REST w wersji 3.0, aby pobrać transkrypcję utworzoną za pomocą mowy na tekst interfejsu API REST w wersji 3.1. Zostanie wyświetlony komunikat o błędzie, taki jak: "Wersja interfejsu API nie może być używana do uzyskiwania dostępu do tej transkrypcji. Użyj interfejsu API w wersji 3.1 lub nowszej.
W operacji Transcriptions_Create są dodawane następujące trzy właściwości:
- Właściwość
displayFormWordLevelTimestampsEnabled
może służyć do włączania raportowania sygnatur czasowych na poziomie wyrazów w formie wyświetlania wyników transkrypcji. Wyniki są zwracane wedisplayWords
właściwości pliku transkrypcji. - Właściwość
diarization
może służyć do określania wskazówek dotyczących minimalnej i maksymalnej liczby etykiet osoby mówiącej do wygenerowania podczas wykonywania opcjonalnej diaryzacji (separacja głośnika). Dzięki tej funkcji usługa może teraz generować etykiety głośników dla więcej niż dwóch osób mówiących. Aby użyć tej właściwości, należy również ustawićdiarizationEnabled
właściwość natrue
. W interfejsie API w wersji 3.1 zwiększyliśmy liczbę prelegentów, które można zidentyfikować za pomocą diaryzacji z dwóch prelegentów obsługiwanych przez interfejs API w wersji 3.0. Zaleca się zachowanie liczby osób mówiących poniżej 30 w celu uzyskania lepszej wydajności. - Właściwość
languageIdentification
może służyć do określania ustawień identyfikacji języka na danych wejściowych przed transkrypcją. Do identyfikacji języka jest obsługiwanych maksymalnie 10 kandydatów regionalnych. Zwrócona transkrypcja zawiera nowąlocale
właściwość rozpoznanego języka lub podanych ustawień regionalnych.
Właściwość filter
jest dodawana do operacji Transcriptions_List, Transcriptions_ListFiles i Projects_ListTranscriptions . Wyrażenie filter
może służyć do wybierania podzestawu dostępnych zasobów. Filtr można filtrować według displayName
, , description
, createdDateTime
lastActionDateTime
, status
, i locale
. Na przykład: filter=createdDateTime gt 2022-02-01T11:00:00Z
.
Jeśli używasz elementu webhook do odbierania powiadomień o stanie transkrypcji, pamiętaj, że elementy webhook utworzone za pośrednictwem interfejsu API w wersji 3.0 nie mogą odbierać powiadomień dotyczących żądań transkrypcji w wersji 3.1. Aby otrzymywać powiadomienia dotyczące żądań transkrypcji w wersji 3.1, należy utworzyć nowy punkt końcowy elementu webhook za pośrednictwem interfejsu API w wersji 3.1.
Mowa niestandardowa
Zestawy danych
Następujące operacje są dodawane do przekazywania wielu bloków danych i zarządzania nimi dla zestawu danych:
- Datasets_UploadBlock — przekaż blok danych dla zestawu danych. Maksymalny rozmiar bloku to 8MiB.
- Datasets_GetBlocks — pobierz listę przekazanych bloków dla tego zestawu danych.
- Datasets_CommitBlocks — zatwierdź listę bloków, aby ukończyć przekazywanie zestawu danych.
Aby obsługiwać adaptację modelu za pomocą tekstu strukturalnego w danych markdown , operacja Datasets_Create obsługuje teraz rodzaj danych LanguageMarkdown . Aby uzyskać więcej informacji, zobacz przekazywanie zestawów danych.
Modele
Operacje Models_ListBaseModels i Models_GetBaseModel zwracają informacje o typie adaptacji obsługiwanej przez każdy model podstawowy.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
Operacja Models_Create ma nową customModelWeightPercent
właściwość, w której można określić wagę używaną, gdy model języka niestandardowego (wytrenowany na podstawie danych zwykłych lub ustrukturyzowanych) jest połączony z modelem języka podstawowego. Prawidłowe wartości to liczby całkowite z zakresu od 1 do 100. Wartość domyślna to obecnie 30.
Właściwość filter
jest dodawana do następujących operacji:
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Evaluations_List
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Projects_ListEvaluations
- Projects_ListModels
Wyrażenie filter
może służyć do wybierania podzestawu dostępnych zasobów. Filtr można filtrować według displayName
, , description
, createdDateTime
lastActionDateTime
, status
, locale
, i kind
. Na przykład: filter=locale eq 'en-US'
.
Dodano operację Models_ListFiles w celu pobrania plików modelu zidentyfikowanych przez dany identyfikator.
Dodano operację Models_GetFile w celu pobrania jednego określonego pliku (zidentyfikowanego z identyfikatorem fileId) z modelu (identyfikowanego z identyfikatorem). Dzięki temu można pobrać plik ModelReport zawierający informacje o danych przetwarzanych podczas trenowania.
Identyfikatory operacji
Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.0
do /speechtotext/v3.1
. Aby na przykład uzyskać modele podstawowe w eastus
regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Nazwa każdego operationId
elementu w wersji 3.1 jest poprzedzona nazwą obiektu. Na przykład element operationId
"Create Model" został zmieniony z CreateModel w wersji 3.0 na Models_Create w wersji 3.1.
Operacja /models/{id}/copyto
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /models/{id}:copyto
(w tym ":") w wersji 3.1.
Operacja /webhooks/{id}/ping
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:ping
(w tym ":") w wersji 3.1.
Operacja /webhooks/{id}/test
(łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:test
(w tym ":") w wersji 3.1.