Freigeben über


UX-Richtlinien für Sprachsynthese und Texteingabe in PlayFab Party

Die PlayFab Party-Bibliothek bietet Spielerstellern die Möglichkeit, mehr Spieler über barrierefreie Spielchatoptionen einzubinden. Es bietet eine Möglichkeit, Sprachchats in Text zu transkribieren und Texteingaben in synthetisierte Stimme umzuwandeln. Sie können eine benutzerdefinierte Benutzeroberflächenlösung für diese Features in Ihrem Titel implementieren. Auf Xbox und Windows können Sie Plattform-APIs verwenden, um die entsprechende Benutzeroberfläche zu implementieren.

Dieses Thema ist Teil 1 einer zweiteiligen Reihe, die UX-Lösungen für die Implementierung von Spracherkennung und Sprachsynthese behandelt. Teil 1 konzentriert sich auf die Implementierung von Text-zu-Sprache, Anforderungen sowie Konsolen- und PC-UI-Lösungen, während teil 2 die Implementierung der Spracherkennung, Anforderungen sowie Konsolen- und PC-UI-Lösungen konzentriert.

Sprachsynthese- und Spracherkennungsszenarien

Das folgende Diagramm führt Sie durch Szenarien, die Spieler erleben werden, wenn Sie Spracherkennungs- und Text-zu-Sprache-Features aktivieren. Es beschreibt die Auswirkungen der Benutzer auf drei Phasen des Spielerlebnisses: die ersteinrichtung, das Spielen eines Spiels und das Einbinden in den Spielchat.

Erfahrungsphase Einrichten Fortsetzen Chat Nachricht
Ziel Benutzer aktiviert Einstellung Benutzer tritt in ein Multiplayer-Spiel ein Benutzer sendet Kommunikation Benutzer empfängt Kommunikation
Aktion Sprache-zu-Text

Alternative zum Hören von Sprachantworten
Startet das Spiel

Eintritt in die MP-Lobby

Überlagerung wird geöffnet, wenn der Spielchat initiiert wird
Benutzer spricht Benutzer liest die Sprachantworten des Teams, die in Text konvertiert wurden, in einer Spracherkennungschatüberlagerung
Text-zu-Sprache

Alternative für Sprachantworten
Startet das Spiel

Eintritt in die MP-Lobby

Spielanzeigemethode für Die Texteingabe (Tastatur, Eingabefeld usw.)
Benutzertypantworten mit plattformgestützten Eingabemethoden

Typisierte Nachrichten werden in synthetisierte Stimme konvertiert.
Benutzer hört die Sprachantworten des Teammitglieds
Benutzeroberflächenkommentar (im Spiel)

Alternative zum Lesen von Menüs und Textantworten im Spiel
Der Benutzer wird von der synthetisierten Stimme des Xbox-Betriebssystems geleitet, um das Spiel zu starten.

Game verwendet die Sprachsynthese-API, um Menüoptionen zu erzählen, die den Benutzer zur MP-Lobby führen
Für SMS-Systeme: Spiele verwenden die Sprachsynthese-API, um den Benutzer zum Starten der Xbox-Betriebssystemtastatur zu führen. Für Sms-Systeme: Spiele verwenden die Sprachsynthese-API, um Antworten zu erzählen
Sprachausgabe (Xbox OS)

Alternative zum Lesen von Xbox-Menüs
Der Benutzer wird von der synthetisierten Stimme des Xbox-Betriebssystems geleitet, um das Spiel zu starten. Für SMS-Systeme: Eine virtuelle Tastatur wird erzählt, wenn der Benutzer eine Nachricht eingibt. N/V

Grundlegendes zur API

Text-zu-Sprache

Arten von Text-zu-Sprache

Party unterstützt zwei Arten von Sprachsynthese: Sprachchat und Sprachausgabe. Der Sprachchattyp ist für das Szenario bestimmt, in dem ein Benutzer die Sprachsynthese als Sprechstimme für die Sprachchatkommunikation verwendet. Wenn auf dieser Seite party und text-to-speech erläutert werden, geht es in der Regel um dieses Szenario. Der Kommentartyp ist für das Szenario vorgesehen, in dem ein Benutzer Sprachsynthese-Audio für seine Audioausgabe wiedergeben soll. Dies dient in erster Linie der Unterstützung des Szenarios "Voice Auditioning", bei dem ein Benutzer Audio zwischen Sprachsyntheseoptionen vergleicht, um das Profil auszuwählen, das er in Voice Chat-Szenarien bevorzugt. Obwohl dies für beliebige, spieldefinierte Narrationsszenarien verwendet werden kann, bietet jede Plattform in der Regel eine flexiblere Lösung für In-Game-Kommentare, z. B. die Sprachsynthese-API auf Xbox und Windows. Jede Methode, die zum Starten eines Sprachsynthesevorgangs verwendet wird, verwendet einen PartySynthesizeTextToSpeechType Parameter, der angibt, welches der beiden Sprachsyntheseszenarien verwendet wird.

Sprachsynthese-Sprachprofile

Ein Sprachsynthese-Sprachprofil definiert die Audiomerkmale, die zum Generieren von Text-zu-Sprache-Audio verwendet werden. Profile variieren je nach Sprache, Gebietsschema und Geschlecht. Es kann mehrere Optionen für jede Kombination geben. Partei unterstützt alle Profile, die von Azure Cognitive Services unterstützt werden. Eine vollständige Liste der unterstützten Sprachen und Sprachoptionen finden Sie in der Sprachunterstützungsreferenz .

Die Profiloptionen können auch von der Parteibibliothek aufgelistet werden. Der erste Schritt besteht darin, einen asynchronen Vorgang zu starten, der die Sprachsyntheseprofile über PartyLocalChatControl::PopulateAvailableTextToSpeechProfiles()auffüllt. Sobald der Vorgang abgeschlossen ist, PartyManager::StartProcessingStateChanges()PartyPopulateAvailableTextToSpeechProfilesCompletedStateChangekönnen die Profile über PartyLocalChatControl::GetAvailableTextToSpeechProfiles()abgefragt werden.

Konfigurieren des Sprachsynthese-Sprachprofils

Bevor text-to-speech von der Parteibibliothek generiert werden kann, muss der Titel das Sprachsynthese-Sprachprofil konfigurieren. Eine asynchrone Option zum Konfigurieren des Profils kann über PartyLocalChatControl::SetTextToSpeechProfile()gestartet werden. Der Abschluss des Vorgangs wird durch PartyManager::StartProcessingStateChanges() Angabe eines PartySetTextToSpeechProfileCompletedStateChangeangegeben.

Synthesizing text-to-speech

Nachdem der Titel ein Sprachsynthese-Stimmprofil konfiguriert hat, kann Text über PartyLocalChatControl::SynthesizeTextToSpeech()zu Sprachaudio synthetisiert werden. Für das Sprachchatszenario werden die Audiodaten so angezeigt, als ob sie "natürlich" von dem Mikrofon erfasst wurden, das dem Benutzer zugeordnet ist, der den Text-zu-Sprache-Vorgang startet. Dies ähnelt dem Benutzer, der das Mikrofon an einem Computer hält, der in ihrem Namen spricht. Für das Narrationsszenario werden die Audiodaten in der Audioausgabe des Benutzers wiedergegeben.

Synthesizing text-to-speech ist ein asynchroner Vorgang; der Abschluss des Vorgangs wird durch PartyManager::StartProcessingStateChanges() Angabe eines PartySynthesizeTextToSpeechCompletedStateChangeangegeben.

Obwohl ein Sprachprofil vor dem Synthetisieren von Sprachsynthese konfiguriert werden muss, ist es nicht erforderlich, auf den Abschluss des von gestarteten asynchronen PartyLocalChatControl::SetTextToSpeechProfile() Vorgangs zu warten, bevor aufgerufen PartyLocalChatControl::SynthesizeTextToSpeech()wird. Wenn ein Profilvorgang ausgeführt wird, wird der Text-zu-Sprache-Vorgang in die Warteschlange eingereiht und nach Abschluss des Profilvorgangs gestartet.

SMS

Zusätzlich zur Sprachsynthese unterstützt Party herkömmliche Textnachrichten. Obwohl viele Titel Text-zu-Sprache mit TEXT-Messaging verknüpfen, ist dies keine Voraussetzung. Die Partei unterstützt Sprachsynthese und Textnachrichten als unabhängige Features. Weitere Informationen finden Sie unter Grundlegendes zu Chats.

Text-to-Speech-UX

Sprachsynthese ermöglicht es einer Person, die Plattform zu verwenden, um einen synthetisierten Sprachstream an die aktiven Chatteilnehmer des Spiels zu senden. Dies ist ideal, um der Person die Teilnahme zu ermöglichen, wenn kein auf Textchat basierendes System verfügbar ist und die gesamte Kommunikation über den In-Game-Sprachchat aktiv ist.

Ermittlung

Für Xbox und Windows finden Benutzer die Einstellungen für Sprachsynthese und Spracherkennung im Abschnitt Barrierefreiheit unter Einstellungen in Xbox Home (Xbox-Konsole) oder Xbox-App (Windows 10). Die Einstellungen werden über Umschaltflächen gesteuert, die die Features für alle Xbox-Spiele aktivieren oder deaktivieren, die für das Benutzerprofil spezifisch sind und in die Plattformeinstellungen integriert werden. Informationen zu allen anderen Plattformen finden Sie in den Richtlinien für die Barrierefreiheit für die Einstellungsorte für Sprachsynthese und Spracherkennung.

Notiz

Wenn Ihr Spiel zusätzliche Einstellungen hinzufügen möchte, die nur spielspezifisch sind, sollten diese innerhalb Ihres Spiels platziert werden. Im Allgemeinen gehören Barrierefreiheitsoptionen zum Menü "Einstellungen/Optionen" des Spiels. Im Idealfall sollten Die Einstellungen als dediziertes Drücken der Schaltfläche verfügbar sein und von jedem Bildschirm oder zumindest über das Pausenmenü zugänglich sein.

Texteingabe-/Ausgabeoptionen

Ein Titel ist dafür verantwortlich, Text einzufordern und zu akzeptieren. Dies kann ein benutzerdefiniertes Texteingabefeld oder die von der Plattform bereitgestellte Tastatur sein. Der resultierende Eintrag kann dann an playFab Party übergeben und in einen synthetischen Stream verarbeitet werden. Dieser Stream wird an die anderen Spieler in der Chatsitzung als Stimme gesendet. Das Empfangsende würde diesen Sprachdatenstrom auf die gleiche Weise verarbeiten wie ein anderer Sprachstream von einem Benutzer, der über ein Mikrofon spricht.

  1. Virtuelle Tastatur des Konsolenbetriebssystems (Xbox-Konsolenbeispiel)

    Notiz

    Die Tastatur wird weiterhin angezeigt, wenn ein Gamepad installiert ist. Sie wird nicht angezeigt, wenn eine Hardwaretastatur installiert ist.

    Xbox One – virtuelle Tastatur

  2. Virtuelle Pc-Betriebssystemtastatur (Windows 10 Beispiel)

    Die PlayFab-Party-API unterstützt den Empfang von Eingaben auf allen Plattformen. Texteingabekomponenten werden jedoch nicht konsistent auf diesen Plattformen bereitgestellt.

    • Auf der Xbox-Konsole können Sich Spiele auf die virtuelle Tastatur verlassen. Es verfügt über ein eigenes Eingabefeld, das Text akzeptiert, der dann dem Titel bereitgestellt wird.
    • Unter Windows können Sich Spiele mit einer Einschränkung auf die virtuelle Tastatur verlassen – sie verfügt nicht über ein Eingabefeld. Dies bedeutet, dass das Spiel ein Texteingabefeld bereitstellen muss, um die von der virtuellen Tastatur generierten Tastatureingaben zu akzeptieren. Auch wenn das Spiel keinen herkömmlichen Textchat unterstützt, ist möglicherweise eine Texteingabe für die Unterstützung von Text-zu-Sprache erforderlich.

    UX-Empfehlung (Windows)

    Plattformübergreifende Spiele, die keine herkömmliche Textnachrichten unterstützen, müssen ein Texteingabefeld bereitstellen, um Tastaturanschläge zur Unterstützung von Text-zu-Sprache zu akzeptieren.

    Windows – Eingabefeld

  3. Eine vom Spiel bereitgestellte benutzerdefinierte Tastatur (Konsolenbeispiel)

    Notiz

    Die hier verwendeten Ausdrücke, die speziell für das gezeigte Beispielspiel verwendet werden.

    • Spiele haben die vollständige Kontrolle über die Sichtbarkeit.
    • Spiele können die Tastatur verbessern, um Ausdrücke für schnelle Antworten einzuschließen.

    Benutzerdefinierte Tastatur

Schnellchat: Eine Lösung für alle

Berücksichtigen Sie die Chataktivität, den Diskussionstyp und die Bildschirmziele Ihres Spielers. Für instance während aktiver Spielsitzungen wäre das Starten einer Tastatur und das Eingeben von Antworten mithilfe eines Controllers umständlich, kann aber kritisch sein. Die Bereitstellung einer Methode, mit der Benutzer schnell aus einer Liste vordefinierter Antworten auswählen können, würde bei der Lösung dieses Problems weit gehen. Für Benutzer, die den Kommentar aktivieren, wird jede vordefinierte Antwort kommentiert. Die Liste der Antworten wäre vorskriptet, sodass die Genauigkeit der Übersetzung erhöht würde. Das Spiel hätte die Kontrolle über kontextbezogene, spielspezifische Begriffe, die für ihre Spieler geeignet sind.

Im Folgenden finden Sie zwei Beispiele für die Verwendung der Xbox-Konsole und Windows 10 Plattformen:

1a. Ausdrucksliste, die dem D-Pad zugeordnet ist

Durch Drücken einer Richtung (nach oben, unten, links, rechts) auf dem Direktionalpad (D-Pad) wird die ausgewählte Kategorie geöffnet. Sobald die Kategorieliste geöffnet ist, gelten die D-Pad-Anweisungen für die Auswahl innerhalb dieser Kategorie. Zum Austauschen von Kategorien wartet der Benutzer auf das Schließen des Fensters (zwei Sekunden Inaktivität) und wählt dann eine alternative D-Pad-Richtung aus, um eine neue Liste von Antworten zu öffnen.

Dem D-Pad zugeordnete Begriffsliste

1b. Einer Tastatur zugeordnete Begriffsliste

Durch Drücken einer Zahlentaste (1-4) wird die ausgewählte Kategorie geöffnet. Sobald die Kategorieliste geöffnet ist, gelten die Nummernschlüssel für die Auswahl innerhalb dieser Kategorie. Um Kategorien zu tauschen, wartet der Benutzer, bis das Fenster geschlossen wird (zwei Sekunden inaktivität), und wählt dann einen alternativen Nummernschlüssel aus, um eine neue Liste von Antworten zu öffnen.

Der Tastatur zugeordnete Begriffsliste

1c. Einer Tastatur zugeordnete Begriffsliste mit anpassbaren Antworteinstellungen

Gehen Sie dieses Feature noch einen Schritt weiter, indem Sie dem Benutzer die Auswahl aus einer Reihe von Antworten ermöglichen.

  • Konsolenbeispiel: Informationen zu nativen Vorlagen für Tastatur und Controller finden Sie unter Ressourcen.

In der ersten Abbildung enthält das Menü Optionen einen Chatabschnitt. Auf diesem Bildschirm werden standardmäßige und vom Benutzer ausgewählte Antworten angezeigt, die unter vier Kategorien von Konversationstypen (Komplimente, Anweisungen usw.) aufgeführt sind.

Jede Kategorie ist einer D-Pad-Richtung mit nur einem Tippen zugeordnet. Jede Antwort ist einer Doppeltipp-D-Pad-Richtung zugeordnet. Ein Benutzer kann eine Zu bearbeitende Antwort auswählen, indem er A drückt.

Menü

In der zweiten Abbildung bietet eine Popupanzeige eine Liste mit zehn Antworten. Ein Benutzer kann bis zu vier auswählen, die je nach Auswahlreihenfolge einer D-Pad-Richtung zugeordnet sind.

Popupanzeige – Chat

Controllerschema für Zuordnungsantworten

Einige Spiele bieten bereits eine benutzerdefinierte Controllerzuordnung für eine Vielzahl von Spielpräferenzen. In diesem Beispiel wird ein alternatives Controllerschema für Sprachsynthese und Spracherkennung vorgeschlagen. Benutzer können aus einer Liste vordefinierter Antworten auswählen und vier D-Pad-Wegbeschreibungen zuordnen. Die linken und rechten Stoßfänger scrollen durch Kategorien; Die Schaltfläche Y startet eine virtuelle Tastatur für benutzerdefinierte Antworten.

Während einer Spielsitzung kann ein Benutzer Steuerungsschemas mit einem dedizierten Tastendruck (zugewiesen durch das Spiel) austauschen. In diesem Fall beendet die Schaltfläche B diesen Modus.

Controllerschema

Schnellchat-Antwortleitfaden: Eine Methode, um Spieler zu engagieren

Was wäre, wenn Spieler eine Schnellchatlösung personalisieren könnten, die den Austausch von Spielern zu Spielern verbessert? Was wäre, wenn es eine Lösung gäbe, die die Spielleistung maximiert und gleichzeitig Kommunikationsbarrieren minimiert? Der Schnellchat kommt näher, indem Benutzern die Auswahl aus einer Liste vordefinierter Antworten ermöglicht wird. In der Regel waren diese Antworten jedoch begrenzte, redundante Ausdrücke, die automatisiert und langweilig erscheinen. Die folgenden Richtlinien untersuchen eine Strategie, um die Spieler zu engagieren.

Ziel: Automatisches Verhalten

Wenn Quick Chat einen Bedarf wiederholt erfüllt, kann eine Gewohnheit gebildet werden. Überlegen Sie, wie Sie Antworten auslösen können, und überlegen Sie, wie dies den Konversationsbedarf zu diesem Zeitpunkt erfüllen kann.

Schnellchatanwendungsfälle

  • Konversation: Die Spieler möchten sich engagieren, um Teamaktivitäten zu erleichtern oder tiefere soziale Verbindungen aufzubauen.
  • Einfachheit: Eine Schnellchatlösung muss in Zeiten hoher Aktivität leicht zugänglich sein.
  • Anonymität: Spieler, die normalerweise Sprachchats vermeiden, haben eine Möglichkeit, teilzunehmen.
  1. Antworten variieren Stellen Sie eine große Sammlung von Antwortoptionen bereit. Dies wird zu der Spontaneität beitragen, die normalerweise in dynamischen Sprachunterhaltungen erreicht wird. Benutzer werden sich mit den gleichen Antwortoptionen weniger langweilen, und Antworten scheinen weniger automatisiert zu sein.

  2. Surface the solution at the time the need (Surface the solution at the time the need auftritt)

    • Machen Sie den Schnellchat jederzeit verfügbar, wenn ein Spielchat aktiv ist.
    • Verwenden Sie einen dedizierten Tastendruck, um Schnellchatantworten zu starten.
    • Standardmäßig ist eine Kategorie im Kontext der aktuellen Spielaktivität festgelegt. Wenn ein Benutzer beispielsweise punktet, lautet die Standardkategorie "Komplimente".
  3. Antworten fokussiert und konkret halten Dies dient hauptsächlich dazu, die kognitive Last niedrig zu halten. Benutzer sollten in der Lage sein, eine ganze Nachricht mühelos zu lesen.

    • Machen Sie Antworten, die für das Gameplay und seine Kategorie relevant sind.
    • Verwenden Sie kurze Ausdrücke und wörter mit einer Silbe, die am häufigsten in Ihrem Spiel verwendet werden.
    • Verwenden Sie Wörter, die Sie sofort visualisieren können.
  4. Verwenden Sie HumorBanter ist eine gängige Form der Verspottung, die Spieler freundlich adressiert. Dies unterscheidet sich von Trauer, bei der benutzer allzu oft belästigt werden. Wenn Antworten clever, relevant und unterschiedlich sind, greifen einige Benutzer möglicherweise nicht auf unangemessene Entscheidungen zurück.

  5. Relativ zu Qualifikation und Fortschritt sein

    • Bieten Sie Chatpräferenzen an, die die Beantwortung von Antworten auf fortschritts- und qualifikationsstufe umfassen.
    • Surface hat Antworten vorgeschlagen, die ein Benutzer mit anderen Teammitgliedern kommunizieren kann. Diese Optionen würden im Kontext der aktuellen Spielaktivität stehen. Beispiel: "Jemand hat eine Axt, um diesen Zombie zu schlagen?"
  6. Konzentrieren Sie sich auf die Emotionen Antworten, die bestimmte Zielemotionen vermitteln, können dazu beitragen, dass ihre Erfahrungen besser miteinander verbunden werden können.

Abschluss

PlayFab Party-APIs für Text-zu-Sprache und Spracherkennung sind äußerst effektive Features, um eine größere Anzahl von Benutzern in ein Spiel und in Gaming-Unterhaltungen einzuspannen. Je mehr Spieler sich engagieren und Beziehungen entwickeln, desto wahrscheinlicher ist es, dass sie weiterhin spielen. Dieser Leitfaden trägt dazu bei, die bestmögliche Benutzererfahrung zu gewährleisten.

Ressourcen

Entwurfsvorlagen

Richtlinien im Menü "Text-zu-Sprache-Kommentare"

PlayFab Party- und Spracherkennungs-UX-Serie

SDK-Dokumentation

  • "Übersicht über barrierefreie Chats im Spiel" im PlayFab SDK (siehe SDK-Downloads)

Leitfaden zur Barrierefreiheit

Inklusives Design