Ćwiczenie — integrowanie i używanie funkcji rozpoznawania mowy i transkrypcji

Ukończone

W tym module utworzysz aplikację rzeczywistości mieszanej, która eksploruje korzystanie z usług Azure Speech Services za pomocą urządzenia HoloLens 2. Po ukończeniu tej serii będziesz w stanie użyć mikrofonu urządzenia do transkrypcji mowy na tekst w czasie rzeczywistym, przetłumaczyć mowę na inne języki i użyć funkcji rozpoznawania intencji, aby zrozumieć polecenia głosowe przy użyciu sztucznej inteligencji.

Tworzenie i przygotowywanie projektu aparatu Unity

W tej sekcji utworzysz nowy projekt aparatu Unity i przygotujesz go do opracowywania zestawu narzędzi MRTK.

W ramach wymagań wstępnych upewnij się, że wykonano poniższe kroki, aby zainicjować projekt i aplikację:

  1. Tworzenie projektu aparatu Unity i nadanie mu odpowiedniej nazwy, na przykład Samouczki zestawu narzędzi MRTK
  2. Przełączanie platformy kompilacji
  3. Importowanie podstawowych zasobów TextMeshPro
  4. Importowanie zestawu narzędzi Mixed Reality Toolkit
  5. Konfigurowanie projektu aparatu Unity
  6. Tworzenie i konfigurowanie sceny i nadanie jej odpowiedniej nazwy; na przykład AzureSpeechServices

Uwaga

Dowiedz się, jak skonfigurować projekt rzeczywistości mieszanej w module Introduction to Mixed Reality Toolkit (Wprowadzenie do zestawu narzędzi Mixed Reality Toolkit ).

Konfigurowanie możliwości

  1. W menu aparatu Unity wybierz pozycję Edytuj>projekt Ustawienia..., aby otworzyć okno Player Ustawienia, a następnie znajdź sekcję Player>Publishing Ustawienia:

    Screenshot of Configuring capabilities.

  2. W Ustawienia publikowania przewiń w dół do sekcji Możliwości i sprawdź dokładnie, czy funkcje InternetClient, Mikrofon i SpatialPerception (które zostały włączone podczas tworzenia projektu na początku samouczka) są nadal włączone. Następnie włącz możliwości InternetClientServer i PrivateNetworkClientServer .

    Screenshot of Enable the capabilities.

Importowanie zasobów samouczka

  1. Pobierz i zaimportuj następujące pakiety niestandardowe aparatu Unity w kolejności ich wyświetlania:

  2. Po zaimportowaniu zasobów samouczka okno Projektu powinno wyglądać następująco:

    Screenshot of Project window after importing the requisite assets.

Przygotowywanie sceny

W tej sekcji przygotujesz scenę, dodając prefab samouczka i konfigurując składnik Lunarcom Controller (Script) w celu kontrolowania sceny.

  1. W oknie Projekt przejdź do zestawu narzędzi Assets>MRTK. Tutorials.AzureSpeechServices>Prefabs folder i przeciągnij prefab lunarcom do okna Hierarchy (Hierarchia), aby dodać go do sceny.

    Screenshot of preparing the scene.

  2. Jeśli obiekt Lunarcom nadal jest zaznaczony w oknie Hierarchia, w oknie Inspector (Inspektor) użyj przycisku Dodaj składnik, aby dodać składnik Lunarcom Controller (Script) do obiektu Lunarcom.

    Screenshot of adding Lunarcom controller (Script).

  3. Po wybraniu obiektu Lunarcom rozwiń go, aby wyświetlić jego obiekty podrzędne, a następnie przeciągnij obiekt terminalu do pola Terminal składnika Lunarcom Controller (Script).

    Screenshot of the Terminal field.

  4. Po wybraniu obiektu Lunarcom rozwiń obiekt Terminal, aby wyświetlić jego obiekty podrzędne, a następnie przeciągnij obiekt Połączenie ionLight do pola Połączenie ion Light składnika Lunarcom Controller (Script) i obiektu OutputText w polu Tekst wyjściowy.

    Screenshot of the Output text field.

  5. Po wybraniu obiektu Lunarcom rozwiń obiekt Buttons, aby wyświetlić jego obiekty podrzędne, a następnie w oknie Inspektor rozwiń listę Przyciski, ustaw pole Przyciski na 3, a następnie przeciągnij obiekty MicButton, SatelliteButton i RocketButton odpowiednio do pól Element 0, 1 i 2.

    Screenshot of configuring the buttons.

Połączenie projektu aparatu Unity do zasobu platformy Azure

Aby korzystać z usług Azure Speech Services, musisz utworzyć zasób platformy Azure i uzyskać klucz interfejsu API dla usługi Mowa. Postępuj zgodnie z instrukcjami przewodnika Szybki start i zanotuj region usługi (znany również jako Lokalizacja) i klucz interfejsu API (znany również jako Klucz1 lub Klucz2).

  1. W oknie Hierarchia wybierz obiekt Lunarcom, a następnie w oknie Inspector (Inspektor) znajdź sekcję Poświadczenia zestawu Speech SDK zestawu SPEECH SDK składnika Lunarcom (Script) i skonfiguruj ją w następujący sposób:

    • W polu Klucz interfejsu API usługi Mowa wprowadź klucz interfejsu API (Klucz1 lub Klucz2).
    • W polu Region usługi Mowa wprowadź region usługi (lokalizacja) przy użyciu małych liter i spacji usuniętych.

    Screenshot of configuring Speech SDK Credentials.

Używanie rozpoznawania mowy do transkrypcji mowy

  1. W oknie Hierarchia wybierz obiekt Lunarcom , a następnie w oknie Inspector (Inspektor) użyj przycisku Dodaj składnik , aby dodać składnik Lunarcom Speech Recognizer (Script) do obiektu Lunarcom.

    Screenshot of adding the Lunarcom Speech Recognizer (Script).

  2. Jeśli teraz wprowadzisz tryb gry i wybierzesz przycisk Odtwórz , możesz przetestować rozpoznawanie mowy, naciskając przycisk mikrofonu:

    Screenshot of Enter game mode.

  3. Następnie, zakładając, że komputer ma mikrofon, gdy coś mówisz, twoja mowa zostanie transkrypcja na panelu terminalu:

    Screenshot of Speech will be transcribed on the terminal panel.

    Uwaga

    Aplikacja musi nawiązać połączenie z platformą Azure, więc upewnij się, że komputer/urządzenie jest połączone z Internetem.