Interfejs API REST zamiany mowy na tekst
Interfejs API REST zamiany mowy na tekst jest używany na potrzeby transkrypcji wsadowej i mowy niestandardowej.
Ważne
Wersja 2024-11-15
interfejsu API REST zamiany mowy na tekst jest najnowszą wersją, która jest ogólnie dostępna.
- Wersja
2024-05-15-preview
interfejsu API REST zamiany mowy na tekst zostanie wycofana w dniu ogłoszenia. - Interfejs API
v3.0
REST zamiany mowy na tekst , ,3.2-preview.1
v3.1
v3.2
, i3.2-preview.2
zostanie wycofany 1 kwietnia 2026 r.
Aby uzyskać więcej informacji na temat uaktualniania, zobacz Przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do 3.1, 3.1 do 3.2 i 3.2 do 2024-11-15.
Użyj interfejsu API REST zamiany mowy na tekst, aby:
- Szybka transkrypcja: Transkrypcja plików audio z zwracaniem wyników synchronicznie i znacznie szybciej niż dźwięk w czasie rzeczywistym. Użyj interfejsu API szybkiej transkrypcji (/speechtotext/transcriptions:trankrypcja) w scenariuszach, w których potrzebujesz transkrypcji nagrania audio tak szybko, jak to możliwe z przewidywalnym opóźnieniem, takim jak szybkie transkrypcja audio lub transkrypcja wideo lub transkrypcja wideo.
- Mowa niestandardowa: przekazywanie własnych danych, testowanie i trenowanie modelu niestandardowego, porównywanie dokładności między modelami i wdrażanie modelu w niestandardowym punkcie końcowym. Skopiuj modele do innych subskrypcji, jeśli chcesz, aby współpracownicy mieli dostęp do utworzonego modelu lub jeśli chcesz wdrożyć model w więcej niż jednym regionie.
- Transkrypcja wsadowa: transkrybuj pliki audio jako partię z wielu adresów URL lub kontenera platformy Azure.
Interfejs API REST zamiany mowy na tekst zawiera takie funkcje jak:
- Pobierz dzienniki dla każdego punktu końcowego, jeśli są wymagane dzienniki dla tego punktu końcowego.
- Zażądaj manifestu utworzonych modeli, aby skonfigurować kontenery lokalne.
- Przekazywanie danych z kont usługi Azure Storage przy użyciu identyfikatora URI sygnatury dostępu współdzielonego (SAS).
- Przynieś własny magazyn. Użyj własnych kont magazynu dla dzienników, plików transkrypcji i innych danych.
- Niektóre operacje obsługują powiadomienia elementu webhook. Możesz zarejestrować elementy webhook, w których są wysyłane powiadomienia.
Transkrypcja wsadowa
Następujące grupy operacji mają zastosowanie do transkrypcji wsadowej.
Grupa operacji | opis |
---|---|
Modele | Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio. Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi. |
Transkrypcje | Transkrypcje służą do transkrypcji dużej ilości dźwięku w magazynie. Gdy używasz transkrypcji wsadowej , wysyłasz wiele plików na żądanie lub wskazujesz kontener usługi Azure Blob Storage z plikami audio w celu transkrypcji. Zobacz Tworzenie transkrypcji, aby zapoznać się z przykładami tworzenia transkrypcji na podstawie wielu plików audio. |
Webhooks | Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania. Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji. |
Mowa niestandardowa
Następujące grupy operacji mają zastosowanie do mowy niestandardowej.
Grupa operacji | opis |
---|---|
Zestawy danych | Używanie zestawów danych do trenowania i testowania niestandardowych modeli mowy. Można na przykład porównać wydajność niestandardowej mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego modelu mowy wyszkolonego przy użyciu innego zestawu danych. Zobacz Przekazywanie zestawów danych szkoleniowych i testowania, aby zapoznać się z przykładami przekazywania zestawów danych. |
Punkty końcowe | Wdrażanie niestandardowych modeli mowy w punktach końcowych. Aby korzystać z niestandardowego modelu mowy , należy wdrożyć niestandardowy punkt końcowy. Zobacz Wdrażanie modelu , aby zapoznać się z przykładami zarządzania punktami końcowymi wdrożenia. |
Oceny | Użyj ocen, aby porównać wydajność różnych modeli. Można na przykład porównać wydajność niestandardowego modelu mowy wytrenowanego z określonym zestawem danych do wydajności modelu podstawowego lub niestandardowego wytrenowanego z innym zestawem danych. Zobacz jakość i dokładność testowania rozpoznawania testów, aby zapoznać się z przykładami testowania i oceniania niestandardowych modeli mowy. |
Modele | Użyj modeli podstawowych lub modeli niestandardowych do transkrypcji plików audio. Modele można używać z niestandardową mową i transkrypcją wsadową. Na przykład można użyć modelu wytrenowanego z określonym zestawem danych w celu transkrypcji plików audio. Zobacz Trenowanie modelu i niestandardowego cyklu życia modelu mowy, aby zapoznać się z przykładami trenowania niestandardowych modeli mowy i zarządzania nimi. |
Projekty | Za pomocą projektów można zarządzać niestandardowymi modelami mowy, trenować i testować zestawy danych oraz punkty końcowe wdrożenia. Niestandardowe projekty mowy zawierają modele, zestawy danych trenowania i testowania oraz punkty końcowe wdrożenia. Każdy projekt jest specyficzny dla ustawień regionalnych. Możesz na przykład utworzyć projekt dla języka angielskiego w Stany Zjednoczone. Zobacz Tworzenie projektu , aby zapoznać się z przykładami tworzenia projektów. |
Webhooks | Użyj elementów webhook, aby otrzymywać powiadomienia o zdarzeniach tworzenia, przetwarzania, uzupełniania i usuwania. Możesz używać elementów webhook z niestandardową mową i transkrypcją wsadową. Punkty zaczepienia sieci Web dotyczą zestawów danych, punktów końcowych, ocen, modeli i transkrypcji. |
Kondycja usługi
Kondycja usługi zapewnia szczegółowe informacje na temat ogólnej kondycji usługi i podskładników. Aby uzyskać więcej informacji, zobacz Service Health .