Rozpocznij pracę z mową na platformie Azure

Ukończone

Platforma Microsoft Azure oferuje funkcje rozpoznawania i syntezy mowy za pośrednictwem usługi Azure AI Speech , która obsługuje wiele funkcji, w tym:

  • Zamiana mowy na tekst
  • Zamiana tekstu na mowę

Uwaga

W tym module omówiono możliwości zamiany mowy na tekst i tekst na mowę . Oddzielny moduł obejmuje tłumaczenie mowy w usługach Azure AI.

Zamiana mowy na tekst

Za pomocą interfejsu API zamiany mowy na sztuczną inteligencję platformy Azure możesz wykonywać transkrypcję w czasie rzeczywistym lub wsadową transkrypcję dźwięku w formacie tekstowym. Źródłem audio transkrypcji może być strumień audio w czasie rzeczywistym z mikrofonu lub pliku audio.

Model, który jest używany przez interfejs API zamiany mowy na tekst, jest oparty na modelu języka uniwersalnego, który został wytrenowany przez firmę Microsoft. Dane modelu są własnością firmy Microsoft i wdrażane na platformie Microsoft Azure. Model jest zoptymalizowany pod kątem dwóch scenariuszy, konwersacji i dyktowania. Możesz również tworzyć i trenować własne modele niestandardowe, w tym akustyki, języka i wymowy, jeśli wstępnie utworzone modele firmy Microsoft nie zapewniają potrzebnych informacji.

Transkrypcja w czasie rzeczywistym: zamiana mowy w czasie rzeczywistym na tekst umożliwia transkrypcję tekstu w strumieniach audio. Transkrypcja w czasie rzeczywistym umożliwia prezentacje, pokazy lub inny scenariusz, w którym mówi dana osoba.

Aby transkrypcja w czasie rzeczywistym działała, aplikacja musi nasłuchiwać przychodzącego dźwięku z mikrofonu lub innego źródła danych wejściowych audio, takich jak plik audio. Kod aplikacji przesyła strumieniowo dźwięk do usługi, co zwraca transkrypowany tekst.

Transkrypcja wsadowa: nie wszystkie scenariusze zamiany mowy na tekst są w czasie rzeczywistym. Nagrania audio mogą być przechowywane w udziale plików, serwerze zdalnym, a nawet w usłudze Azure Storage. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.

Transkrypcja wsadowa powinna być uruchamiana w sposób asynchroniczny, ponieważ zadania wsadowe są zaplanowane na podstawie najlepszego nakładu pracy. Zwykle zadanie rozpoczyna wykonywanie w ciągu kilku minut od żądania, ale nie ma oszacowania, kiedy zadanie zmienia się w stan uruchomienia.

Zamiana tekstu na mowę

Interfejs API zamiany tekstu na mowę umożliwia konwertowanie danych wejściowych tekstu na mowę słyszalną, którą można odtwarzać bezpośrednio za pośrednictwem głośnika komputera lub zapisywać w pliku audio.

Głosy syntezy mowy: gdy używasz tekstu do interfejsu API mowy, możesz określić głos, który ma być używany do wokalizacji tekstu. Ta funkcja zapewnia elastyczność personalizacji rozwiązania syntezy mowy i nadania mu określonego znaku.

Usługa obejmuje wiele wstępnie zdefiniowanych głosów z obsługą wielu języków i wymowy regionalnej, w tym neuronowych głosów, które wykorzystują sieci neuronowe do przezwyciężenia typowych ograniczeń syntezy mowy w odniesieniu do intonacji, co powoduje bardziej naturalny głos brzmiący. Możesz również opracowywać niestandardowe głosy i używać ich za pomocą interfejsu API zamiany tekstu na mowę

Obsługiwane języki

Interfejsy API zamiany mowy na tekst i tekst na mowę obsługują różne języki. Skorzystaj z poniższych linków, aby znaleźć szczegółowe informacje o obsługiwanych językach: