Podsumowanie
W tym module przedstawiono dwa kluczowe aspekty technologii głosu: rozpoznawanie mowy i syntezę. Rozpoznawanie mowy obejmuje konwertowanie wyrazów mówionych na dane, często transkrybowane na tekst przy użyciu modelu akustycznego i modelu językowego. Ten tekst może być używany do różnych celów, takich jak napisy zamknięte, transkrypcje, automatyczne dyktowanie notatek i przetwarzanie danych wejściowych użytkownika. Z drugiej strony synteza mowy dotyczy wokalizacji danych, zwykle przez konwertowanie tekstu na mowę. Syntetyzowana mowa może służyć do generowania odpowiedzi mówionych, tworzenia menu głosowych, czytania wiadomości e-mail lub tekstów na głos i nadawania anonsów. Omówiono również usługę rozpoznawania mowy sztucznej inteligencji platformy Microsoft Azure, która zapewnia funkcje rozpoznawania mowy i syntezy za pomocą funkcji, takich jak zamiana mowy na tekst i interfejsy API zamiany tekstu na mowę.
Główne wnioski z tego modułu to funkcje usługi Azure AI Speech. Interfejs API zamiany mowy na tekst umożliwia transkrypcję dźwięku w czasie rzeczywistym lub wsadową do tekstu przy użyciu modelu opartego na modelu języka uniwersalnego wyszkolonym przez firmę Microsoft. Może służyć do transkrypcji w czasie rzeczywistym podczas prezentacji lub pokazów albo do transkrypcji wsadowych przechowywanych plików audio. Interfejs API zamiany tekstu na mowę konwertuje wprowadzanie tekstu na mowę słyszalną, którą można dostosować za pomocą różnych głosów, języków i regionalnych wymowyAzure AI Speech to uniwersalne narzędzie, które można uzyskać dostęp za pośrednictwem różnych platform, takich jak Azure AI Speech Studio, Azure AI Studio, interfejs wiersza polecenia, interfejsy API REST i zestawy SDK (Software Development Kit).
Więcej informacji na temat usługi Azure AI Speech można znaleźć w dokumentacji usługi.