Integrowanie i używanie funkcji rozpoznawania mowy i transkrypcji

2 min

Usługa Mowa jest integracją przetwarzania mowy na tekst, tekstu na mowę i tłumaczenia mowy w ramach jednej subskrypcji platformy Azure. Łatwo jest włączyć mowę w aplikacjach, narzędziach i urządzeniach przy użyciu interfejsu wiersza polecenia usługi Mowa, zestawu SPEECH SDK, zestawu SDK urządzeń usługi Mowa, programu Speech Studio lub interfejsów API REST.

Rozpoznawanie mowy

Usługa rozpoznawania mówców udostępnia algorytmy, które weryfikują i identyfikują mówców na podstawie ich unikatowych cech głosowych przy użyciu biometrii głosowej. Służy do odpowiadania na pytanie "kto mówi?". Najpierw należy dostarczyć dane szkoleniowe audio dla pojedynczego mówcy, co pozwala stworzyć profil rejestracyjny na podstawie unikatowych cech głosu mówcy. Następnie możesz sprawdzić krzyżowo próbki głosu audio w tym profilu, aby sprawdzić, czy osoba mówiąca jest tą samą osobą (weryfikacja osoby mówiącej) lub możesz sprawdzić krzyżowo próbki głosu audio względem grupy zarejestrowanych profilów osoby mówiącej, aby sprawdzić, czy pasuje do dowolnego profilu w grupie (identyfikacja osoby mówiącej). Natomiast diaryzacja mówców używa operacji wsadowej do grupowania strumieni audio według tożsamości mówcy, co oznacza, że różni mówcy będą mieć swoje własne segmenty audio.

Transkrypcja

Transkrypcja to zestaw operacji interfejsu REST API, które umożliwiają transkrypcję dźwięku w pamięci masowej. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.

Polecenia głosowe MRTK

Podobnie jak Windows Speech Input, dostawcy rozpoznawania mowy nie tworzą żadnych kontrolerów, ale umożliwiają definiowanie słów kluczowych, które będą wywoływać zdarzenia wprowadzania mowy po rozpoznaniu. Skonfigurujesz słowa kluczowe do rozpoznawania w profilu poleceń mowy w profilu systemu wprowadzania danych wejściowych. Dla każdego polecenia można również wykonać następujące czynności:

Wybierz akcję wejściową, aby zamapować na polecenie. W ten sposób można na przykład ustawić, że wybranie słowa kluczowego ma taki sam efekt jak kliknięcie lewym przyciskiem myszy, mapując obie te same akcje.
Określ kod klawisza, który wywołuje to samo wydarzenie głosowe po naciśnięciu.
Dodaj klucz lokalizacji używany w aplikacjach platformy UWP w celu uzyskania zlokalizowanego słowa kluczowego z zasobów aplikacji.

SDK Mowy

Zestaw SDK (Speech Software Development Kit) uwidacznia wiele funkcji usługi rozpoznawania mowy, aby umożliwić tworzenie aplikacji z obsługą mowy. Zestaw SPEECH SDK jest dostępny w wielu językach programowania i na wszystkich platformach. Zestaw SPEECH SDK udostępnia wiele funkcji (choć nie wszystkie) z usługi Mowa. Możliwości zestawu SPEECH SDK są często kojarzone ze scenariuszami. Zestaw Speech SDK jest idealny do scenariuszy czasu rzeczywistego i spoza czasu rzeczywistego, przy użyciu lokalnych urządzeń, plików, magazynu obiektów blob platformy Azure, a nawet strumieni wejściowych i wyjściowych. Jeśli scenariusz nie jest osiągalny w zestawie SDK dla usługi Mowy, poszukaj alternatywnego interfejsu API REST.

Postrzeganie przestrzenne

Percepcja przestrzenna zapewnia programowy dostęp do danych mapowania przestrzennego, zapewniając aplikacjom rzeczywistości mieszanej informacje o powierzchniach w określonych przez aplikację regionach przestrzeni w pobliżu użytkownika. Zadeklaruj możliwość percepcji przestrzennej tylko wtedy, gdy aplikacja jawnie wykorzysta te siatki powierzchni. Funkcjonalność nie jest wymagana, aby aplikacje rzeczywistości mieszanej wykonywały renderowanie holograficzne w oparciu o pozycję głowy użytkownika.

Internetowy serwer klienta

Serwer klienta internetowego umożliwia scenariusze komunikacji równorzędnej (P2P), w których aplikacja musi nasłuchiwać przychodzących połączeń sieciowych.

Serwer klienta sieci prywatnej

Serwer klienta sieci prywatnej zapewnia dostęp przychodzący i wychodzący do sieci domowych i służbowych za pośrednictwem zapory. Ta funkcja jest zwykle używana w przypadku gier komunikujących się w sieci lokalnej (LAN) i w aplikacjach, które udostępniają dane na różnych urządzeniach lokalnych.