Co to jest zamiana mowy na tekst?
Usługa Azure AI Speech oferuje zaawansowane możliwości zamiany mowy na tekst. Ta funkcja obsługuje zarówno transkrypcję w czasie rzeczywistym, jak i wsadową, zapewniając uniwersalne rozwiązania do konwertowania strumieni audio na tekst.
Podstawowe funkcje
Usługa zamiany mowy na tekst oferuje następujące podstawowe funkcje:
- Transkrypcja w czasie rzeczywistym: natychmiastowa transkrypcja z wynikami pośrednimi dla danych wejściowych audio na żywo.
- Szybka transkrypcja: najszybsze synchroniczne dane wyjściowe w sytuacjach z przewidywalnym opóźnieniem.
- Transkrypcja wsadowa: wydajne przetwarzanie dużych ilości wstępnie rozpoznanego dźwięku.
- Mowa niestandardowa: modele o zwiększonej dokładności dla określonych domen i warunków.
Zamiana mowy w czasie rzeczywistym na tekst
Zamiana mowy w czasie rzeczywistym na tekst transkrypuje dźwięk, ponieważ jest rozpoznawany z mikrofonu lub pliku. Idealnie nadaje się do aplikacji wymagających natychmiastowej transkrypcji, takich jak:
- Transkrypcje, transkrypcje, transkrypcje lub napisy na żywo: transkrypcja audio w czasie rzeczywistym na potrzeby ułatwień dostępu i przechowywania rekordów.
- Diarization: Identyfikowanie i rozróżnianie różnych głośników w dźwięku.
- Ocena wymowy: ocenianie i przekazywanie opinii na temat dokładności wymowy.
- Asystują agenci centrum telefonicznego: zapewnianie transkrypcji w czasie rzeczywistym w celu ułatwienia przedstawicielom działu obsługi klienta.
- Dyktowanie: transkrybowanie wyrazów mówionych do tekstu napisanego na potrzeby dokumentacji.
- Agenci głosowi: włączanie interakcyjnych systemów odpowiedzi głosowych w celu transkrypcji zapytań użytkowników i poleceń.
Dostęp do mowy w czasie rzeczywistym do tekstu można uzyskać za pośrednictwem zestawu SPEECH SDK, interfejsu wiersza polecenia usługi Mowa i interfejsu API REST, co umożliwia integrację z różnymi aplikacjami i przepływami pracy. Zamiana mowy w czasie rzeczywistym na tekst jest dostępna za pośrednictwem zestawu SPEECH SDK, interfejsu wiersza polecenia usługi Mowa i interfejsów API REST, takich jak interfejs API szybkiej transkrypcji.
Szybka transkrypcja
Interfejs API szybkiej transkrypcji służy do transkrypcji plików audio z zwracaniem wyników synchronicznie i szybciej niż dźwięk w czasie rzeczywistym. Użyj szybkiej transkrypcji w scenariuszach, w których potrzebujesz transkrypcji nagrania audio tak szybko, jak to możliwe z przewidywalnym opóźnieniem, na przykład:
- Szybkie transkrypcje audio lub wideo i podtytuły: Szybko uzyskaj transkrypcję całego pliku wideo lub audio w jednym miejscu.
- Tłumaczenie wideo: natychmiast uzyskaj nowe napisy wideo, jeśli masz dźwięk w różnych językach.
Aby rozpocząć pracę z szybką transkrypcją, zobacz używanie szybkiego interfejsu API transkrypcji.
Interfejs API transkrypcji wsadowej
Transkrypcja wsadowa jest przeznaczona do transkrypcji dużych ilości dźwięku przechowywanego w plikach. Ta metoda przetwarza dźwięk asynchronicznie i jest odpowiednia dla:
- Transkrypcje, transkrypcje lub napisy dla wstępnie utworzonego dźwięku: konwertowanie przechowywanej zawartości audio na tekst.
- Analiza po wywołaniu centrum kontaktów: Analizowanie zarejestrowanych wywołań w celu wyodrębnienia cennych szczegółowych informacji.
- Diarization: Różnicowanie między głośnikami w nagranym dźwięku.
Transkrypcja wsadowa jest dostępna za pośrednictwem:
Interfejs API REST zamiany mowy na tekst: ułatwia przetwarzanie wsadowe dzięki elastyczności wywołań RESTful. Aby rozpocząć, zobacz Jak używać transkrypcji wsadowej i przykładów transkrypcji usługi Batch.
Interfejs wiersza polecenia usługi Mowa: obsługuje zarówno transkrypcję w czasie rzeczywistym, jak i transkrypcję wsadową, co ułatwia zarządzanie zadaniami transkrypcji. Aby uzyskać pomoc dotyczącą transkrypcji wsadowych interfejsu wiersza polecenia usługi Mowa, uruchom następujące polecenie:
spx help batch transcription
Mowa niestandardowa
Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową.
Napiwek
Hostowany punkt końcowy wdrożenia nie jest wymagany do używania mowy niestandardowej z interfejsem API transkrypcji usługi Batch. Zasoby można oszczędzać, jeśli niestandardowy model mowy jest używany tylko do transkrypcji wsadowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Mowa.
Funkcja rozpoznawania mowy korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Model podstawowy jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne typowe domeny. Podczas tworzenia żądania rozpoznawania mowy najnowszy model podstawowy dla każdego obsługiwanego języka jest używany domyślnie. Model podstawowy działa dobrze w większości scenariuszy rozpoznawania mowy.
Usługa Custom Speech umożliwia dostosowanie modelu rozpoznawania mowy w celu lepszego dopasowania do konkretnych potrzeb aplikacji. Może to być szczególnie przydatne w następujących celach:
- Poprawa rozpoznawania słownictwa specyficznego dla domeny: wytrenuj model przy użyciu danych tekstowych istotnych dla pola.
- Zwiększenie dokładności dla określonych warunków dźwiękowych: użyj danych dźwiękowych z transkrypcjami referencyjnymi, aby uściślić model.
Aby uzyskać więcej informacji na temat mowy niestandardowej, zobacz omówienie mowy niestandardowej i dokumentację interfejsu API REST zamiany mowy na tekst.
Aby uzyskać szczegółowe informacje na temat opcji dostosowywania dla poszczególnych języków i ustawień regionalnych, zobacz dokumentację dotyczącą języka i głosu dla usługi Mowa.
Przykłady użycia
Oto kilka praktycznych przykładów wykorzystania mowy sztucznej inteligencji platformy Azure do tekstu:
Przypadek użycia | Scenariusz | Rozwiązanie |
---|---|---|
Transkrypcje i transkrypcje spotkań na żywo | Platforma zdarzeń wirtualnych musi udostępniać podpisy w czasie rzeczywistym na potrzeby seminariów internetowych. | Integrowanie mowy w czasie rzeczywistym z tekstem przy użyciu zestawu SPEECH SDK w celu transkrypcji zawartości mówionej w podpisach wyświetlanych na żywo podczas wydarzenia. |
Ulepszenia obsługi klienta | Centrum telefoniczne chce pomóc agentom, zapewniając transkrypcje połączeń klientów w czasie rzeczywistym. | Używanie mowy w czasie rzeczywistym do tekstu za pośrednictwem interfejsu wiersza polecenia usługi Mowa w celu transkrypcji wywołań, co umożliwia agentom lepsze zrozumienie zapytań klientów i reagowanie na nie. |
Podtytuł wideo | Platforma hostingu wideo chce szybko wygenerować zestaw napisów dla filmu wideo. | Użyj szybkiej transkrypcji, aby szybko uzyskać zestaw napisów dla całego filmu wideo. |
Narzędzia edukacyjne | Platforma e-learning ma na celu zapewnienie transkrypcji na potrzeby wykładów wideo. | Zastosuj transkrypcję wsadową za pomocą mowy do interfejsu API REST tekstu, aby przetworzyć wstępnie utworzone wideo wykładowe, generując transkrypcje tekstu dla uczniów. |
Dokumentacja opieki zdrowotnej | Dostawca opieki zdrowotnej musi udokumentować konsultacje pacjentów. | Używaj mowy w czasie rzeczywistym do tekstu na potrzeby dyktowania, dzięki czemu pracownicy służby zdrowia mogą mówić swoimi notatkami i natychmiast je transkrybować. Użyj modelu niestandardowego, aby zwiększyć uznanie określonych terminów medycznych. |
Media i rozrywka | Firma zajmująca się mediami chce tworzyć napisy dla dużego archiwum filmów wideo. | Użyj transkrypcji wsadowej, aby przetworzyć pliki wideo zbiorczo, generując dokładne podtytuły dla każdego wideo. |
Badanie rynku | Firma zajmująca się badaniami rynkowymi musi analizować opinie klientów na podstawie nagrań audio. | Zastosowanie transkrypcji wsadowej w celu konwersji opinii audio na tekst, co umożliwia łatwiejsze analizowanie i wyodrębnianie szczegółowych informacji. |
Odpowiedzialne AI
System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.
- Notatka dotycząca przezroczystości i przypadki użycia
- Cechy i ograniczenia
- Integracja i odpowiedzialne użycie
- Dane, prywatność i bezpieczeństwo
Powiązana zawartość
- Wprowadzenie do zamiany mowy na tekst
- Tworzenie transkrypcji wsadowej
- Aby uzyskać szczegółowe informacje o cenach, odwiedź stronę cennika usługi Mowa.