Übung: Integrieren und Verwenden der Spracherkennung und Transkription

Abgeschlossen

In diesem Modul werden Sie eine Mixed Reality-Anwendung erstellen, um sich mit der Verwendung der Azure Speech-Dienste mit HoloLens 2 vertraut zu machen. Nach Absolvieren diese Reihe können Sie mithilfe Ihres Gerätemikrofons in Echtzeit Sprache in Text transkribieren, Ihre Äußerungen in andere Sprachen übersetzen und mithilfe des Absichtserkennungsfeatures Sprachbefehle mithilfe künstlicher Intelligenz verstehen.

Erstellen und Vorbereiten des Unity-Projekts

In diesem Abschnitt erstellen Sie ein neues Unity-Projekt und bereiten es für die MRTK-Entwicklung vor.

Stellen Sie als Voraussetzung sicher, dass Sie die folgenden Schritte ausgeführt haben, um Ihr Projekt und Ihre Anwendung zu initialisieren:

  1. Erstellen eines neuen Unity-Projekts, das mit einem passenden Namen bezeichnet wird, beispielsweise MRTK-Tutorials
  2. Wechseln der Buildplattform
  3. Importieren der TextMeshPro Essential-Ressourcen
  4. Importieren des Mixed Reality-Toolkits
  5. Konfigurieren des Unity-Projekts
  6. Erstellen und Konfigurieren der Szene und Vergabe eines geeigneten Namens; zum Beispiel: AzureSpeechServices

Hinweis

Informationen zum Einrichten Ihres Mixed Reality-Projekts finden Sie im Modul Einführung in das Mixed Reality-Toolkit.

Konfigurieren der Funktionen

  1. Wählen Sie im Unity-Menü Edit>Project Settings... (Bearbeiten > Projekteinstellungen) aus, um das Fenster mit den Player-Einstellungen zu öffnen, und suchen Sie dann den Abschnitt Player>Publishing Settings (Player > Veröffentlichungseinstellungen):

    Screenshot of Configuring capabilities.

  2. Scrollen Sie in den Veröffentlichungseinstellungen nach unten zum Abschnitt Funktionen, und überprüfen Sie, ob die Funktionen InternetClient, Mikrofon und SpatialPerception (die Sie bei der Erstellung des Projekts zu Beginn des Tutorials festgelegt haben) noch aktiviert sind. Aktivieren Sie dann die Funktionen InternetClientServer und PrivateNetworkClientServer.

    Screenshot of Enable the capabilities.

Importieren der Tutorialressourcen

  1. Laden Sie die folgenden benutzerdefinierten Unity-Pakete herunter, und importieren Sie sie in der Reihenfolge, in der sie hier aufgeführt sind:

  2. Nachdem Sie die Tutorialressourcen importiert haben, sollte ihr Projekt wie im folgenden Fenster aussehen:

    Screenshot of Project window after importing the requisite assets.

Vorbereiten der Szene

In diesem Abschnitt bereiten Sie die Szene vor, indem Sie das Tutorialprefab hinzufügen und die Lunarcom Controller (Skript)-Komponente konfigurieren, um Ihre Szene zu steuern.

  1. Navigieren Sie im Fenster „Projekt“ zum Ordner Assets>MRTK.Tutorials.AzureSpeechServices>Prefabs, und ziehen Sie das Prefab Lunarcom in das Fenster „Hierarchie“, um es Ihrer Szene hinzuzufügen.

    Screenshot of preparing the scene.

  2. Wenn das Lunarcom-Objekt weiterhin im Hierarchiefenster ausgewählt ist, verwenden Sie im Inspektor-Fenster die Schaltfläche Komponente hinzufügen, um die Lunarcom Controller (Skript)-Komponente zum Lunarcom-Objekt hinzuzufügen.

    Screenshot of adding Lunarcom controller (Script).

  3. Wenn das Lunarcom-Objekt weiterhin ausgewählt ist, erweitern Sie es, um seine untergeordneten Objekte anzuzeigen, und ziehen Sie dann das Objekt Terminal in das Feld Terminal der Lunarcom Controller (Script)-Komponente.

    Screenshot of the Terminal field.

  4. Wenn das Lunarcom-Objekt weiterhin ausgewählt ist, erweitern Sie das Terminal-Objekt, um seine untergeordneten Objekte anzuzeigen, und ziehen Sie dann das Objekt ConnectionLight in das Feld Connection Light der Connection Light (Script)-Komponente und das OutputText-Objekt in das Feld Ausgabetext.

    Screenshot of the Output text field.

  5. Wenn das Lunarcom-Objekt weiterhin ausgewählt ist, erweitern Sie das Schaltflächen-Objekt, um seine untergeordneten Objekte anzuzeigen, und erweitern Sie dann im Inspektorfenster die Liste Schaltflächen, legen Sie das Feld Schaltflächen auf 3 fest, und ziehen Sie die MicButton-, SatelliteButton- und RocketButton-Objekte jeweils in die Felder Element 0, 1 und 2.

    Screenshot of configuring the buttons.

Verbinden des Unity-Projekts mit der Azure-Ressource

Um Azure Speech Services zu verwenden, müssen Sie eine Azure-Ressource erstellen und einen API-Schlüssel für den Speech Service abrufen. Befolgen Sie die Anweisungen im Schnellstart, und notieren Sie sich Ihre Dienstregion (auch Standort genannt) sowie den API-Schlüssel (auch Schlüssel1 oder Schlüssel2 genannt).

  1. Wählen Sie in Ihrem Hierarchiefenster das Lunarcom-Objekt aus, suchen Sie dann im Inspektorfenster den Abschnitt Speech SDK Credentials der Lunarcom Controller (Script) -Komponente, und konfigurieren Sie ihn wie folgt:

    • Geben Sie im Feld Sprachdienst-API-Schlüssel Ihren API-Schlüssel (Schlüssel1 oder Schlüssel2) ein.
    • Geben Sie im Feld Region des Spracherkennungsdiensts Ihre Dienstregion (Standort) mit Kleinbuchstaben und Leerzeichen ein.

    Screenshot of configuring Speech SDK Credentials.

Transkribieren von Sprache mithilfe der Spracherkennung

  1. Wählen Sie im Fenster „Hierarchie“ das Lunarcom-Objekt aus, und verwenden Sie dann im Inspektorfenster die Schaltfläche Komponente hinzufügen, um die Lunarcom Speech Recognizer (Skript)-Komponente zum Lunarcom-Objekt hinzuzufügen.

    Screenshot of adding the Lunarcom Speech Recognizer (Script).

  2. Wenn Sie jetzt in den Spielmodus wechseln und die Schaltfläche Wiedergeben auswählen, können Sie die Spracherkennung testen, indem Sie zuerst die Mikrofonschaltfläche drücken:

    Screenshot of Enter game mode.

  3. Falls Ihr Computer über ein Mikrofon verfügt, wird Ihre Sprache dann, wenn Sie etwas sagen, im Terminalbereich transkribiert:

    Screenshot of Speech will be transcribed on the terminal panel.

    Achtung

    Die Anwendung muss eine Verbindung mit Azure herstellen, achten Sie also darauf, dass Ihr Computer/Gerät mit dem Internet verbunden ist.