Optimieren der Sprachausgabe mithilfe Ihres Feedbacks

Article
07/27/2012

Kurz vor Veröffentlichung der Windows 8 Consumer Preview im Februar haben wir einen Blogbeitrag über unsere Bemühungen verfasst, die Barrierefreiheit in Windows 8 für Menschen mit körperlichen Beeinträchtigungen zu verbessern. Hierzu zählt etwa die Sprachausgabe, um Blinden die Verwendung von Windows 8 auf einem Touchscreen zu ermöglichen. Diese Entwicklungen wurden auch in der Release Preview fortgeführt, und weitere Verbesserungen werden bis zur endgültigen Version von Windows 8 folgen. In diesem Blogbeitrag möchten wir unsere Bemühungen vorstellen, die wir unternommen haben, um die Sprachausgabe auf Touchscreen-PCs zu verbessern. Dieser Beitrag wurde von Doug Kirschner verfasst, Mitglied des Teams für Barrierefreiheit. –Steven

Zunächst möchten wir uns bei allen für das Feedback bedanken. Es gab viele positive Reaktionen dazu, dass Touchscreengeräte mit Windows 8 bereits standardmäßig über eine einfache Bildschirmlesehilfe verfügen. Außerdem haben wir eine gewaltige Menge konstruktives Feedback in Bezug auf Verbesserungen der Sprachausgabe auf Touchscreens und einer vereinfachten Nutzung im Web erhalten. Wir haben uns Ihre Vorschläge zu Herzen genommen. Durch diese Vorschläge – in Kombination mit den Ergebnissen aus Anwendungstests, die Microsoft mit Benutzern mit beeinträchtigter Sehkraft durchgeführt hat – konnten wir einige wichtige Änderungen umsetzen, die Ihnen hoffentlich zusagen werden.

Vorschläge der Barrierefreiheit-Community

Als die Developer Preview veröffentlicht wurde, haben wir die Gelegenheit ergriffen und versucht, so viel Feedback zur Sprachausgabe wie möglich zu erhalten – insbesondere von Personen, die auf visuelle Hilfstools angewiesen sind. Zunächst arbeiteten wir dabei mit Microsoft-Mitarbeitern zusammen (und wir schätzen uns glücklich über unsere nicht unbeträchtliche Anzahl organisierter Mitarbeiter, die sich so sehr für die Barrierefreiheit von Microsoft-Produkten engagieren) und baten sie, Windows 8 zu installieren und uns ihre Eindrücke mitzuteilen. Außerdem wurden hausinterne Veranstaltungen zur Barrierefreiheit organisiert, bei denen jeder einfach vorbeischauen und diese Tools persönlich ausprobieren konnte. Zusätzlich wurden auf dem Microsoft-Campus Studien zur Benutzerfreundlichkeit durchgeführt, bei denen Benutzer die Sprachausgabe auf einem Touchscreen testen und einige häufige Aufgaben ausführen sollten, um Verbesserungsmöglichkeiten zu erkennen. Die Developer und Consumer Preview wurde millionenfach heruntergeladen und viele Benutzer haben auch die Sprachausgabe ausprobiert und uns wertvolles Feedback zugesendet. Wir haben uns mit einigen Personen in Verbindung gesetzt, die sich via @BuildWindows8 an uns gewendet haben. Und schließlich haben wir auch an der CSUN-Konferenz für Technologie und Menschen mit körperlichen Beeinträchtigungen teilgenommen, auf der wir uns einzeln mit Benutzern zusammensetzen konnten, als diese die Windows 8 Consumer Preview zum ersten Mal auf Touchscreens ausprobierten.

Es gab eine ganze Reihe von Schlüsselszenarien, die zu überprüfen waren. Insbesondere sollte sichergestellt werden, dass Touchscreen-Benutzer die Sprachausgabe unmittelbar und ohne Probleme verwenden können. Hierzu zählt etwa das Suchen nach und Installieren von barrierefreien Apps aus dem Store und das Ausführen einfacher Alltagsaufgaben, z. B. E-Mails versenden, Webseiten lesen oder Musik anhören. Die Begeisterung über die Dinge, die wir bis zu diesem Zeitpunkt umgesetzt hatten, war wirklich umwerfend, auch wenn uns bewusst war, dass wir bei der Verbesserung der Touch-Sprachausgabe noch viel Arbeit vor uns hatten.

Vielen Dank für all das konstruktive Feedback, durch das wir wichtige Bereiche ausmachen konnten, die wir in der Release Preview verbessert haben:

Reaktionsfreudigkeit: Wir wurden häufig darauf hingewiesen, dass die Sprachausgabe auf Touchscreens nicht reaktionsschnell genug war.
Gesten: Einige Personen hatten mit Problemen bei den Gesten der Sprachausgabe zu kämpfen, insbesondere mit einigen komplizierteren Mehrfingergesten.
Orientierung in Apps: Die Suche nach bestimmten Elementen auf dem Bildschirm (z. B. von Kacheln auf der Startseite) kann sich schwierig gestalten, wenn Benutzer mit einer bestimmten App oder Benutzeroberfläche noch nicht vertraut sind.
Navigation im Web: Die Befehle, die in der Consumer Preview zur Verfügung standen, reichten für einige Webseiten nicht aus.

Wir haben uns bei der Entwicklung der Release Preview intensiv mit all diesen Bereichen beschäftigt und sind immer noch dabei, einige Verbesserungen für die endgültige Version von Windows 8 umzusetzen. Allerdings wollten wir Ihnen einige der Verbesserungen vorstellen, die bereits jetzt in der Release Preview verfügbar sind.

HTML5-Video wird in Ihrem Browser nicht unterstützt.

Laden Sie dieses Video herunter, und spielen Sie es in einem geeigneten Media-Player ab:
MP4 in hoher Qualität | MP4 in niedriger Qualität

Verbessern der Touch-Reaktionsfreudigkeit der Sprachausgabe

Einige Benutzer teilten uns mit, dass die Sprachausgabe für ihren Geschmack nicht reaktionsfreudig genug sei. Dieses Feedback erreichte uns in unterschiedlichsten Ausprägungen: dass die Sprachausgabe zu langsam sei, in bestimmten Situationen nicht reagieren würde oder dass die Benutzer sich isoliert oder orientierungslos fühlten. Die Ursache war jedoch stets die gleiche. Wenn Sie den Bildschirm berühren, erwarten Sie eine zeitnahe Reaktion. Wir konnten zwei Szenarien identifizieren, in denen dieses Problem auftrat.

Orientierung mit einem Finger: Wenn Benutzer ein bestimmtes Element auf dem Bildschirm suchten und dabei mit einem Finger über den Bildschirm fuhren, konnten wir häufig beobachten, dass sie ihre Suche genau über dem gesuchten Element abbrachen, da ihre Fingerbewegung zu schnell war. Dies führte häufig dazu, dass die Sprachausgabe gar keine Gelegenheit hatte, das Element vorzulesen.
Reaktion auf Gesten: Einige Benutzer waren sich im Unklaren darüber, ob ihre Gesten erfolgreich waren, und versuchten, die Geste mehrmals zu wiederholen, obwohl der erste Versuch bereits erfolgreich war. Das Problem lag hierbei an der Verzögerung zwischen dem Erkennen der Geste und der gesprochenen Antwort durch die Sprachausgabe. Außerdem gab es in bestimmten Situationen Unklarheiten bezüglich der Antwort, d. h., ob die Sprachausgabe die vom Benutzer gewünschte Version ausgeführt hatte oder ob sie nur einen ähnlichen, jedoch nicht mit der Aktion zusammenhängenden Text vorlas.

In beiden Fällen sprang das blaue Rechteck, das als optische Markierung immer den Punkt hervorhebt, den die Sprachausgabe vorliest, schnell zum entsprechenden Element. Dies zeigt, dass die Sprachausgabe die Bewegung des Benutzers richtig erkannt hat und die entsprechende Reaktion ausführt. Das Problem hängt dementsprechend mit dem tatsächlichen Sprachprozess zusammen. Die TTS (Text-To-Speech)-Synthese ist schnell, aber trotz der hohen Geschwindigkeit benötigt das System einen Moment, um die Reaktion vorzulesen. Hinzu kommt zusätzlich noch die Zeitspanne, die der Benutzer für das kognitive Verarbeiten und Verstehen des gehörten Texts benötigt. Das Problem wurde noch weiter verschärft, da die Sprachreaktionszeit je nach Kontext stark schwankte. So konnten Benutzer nur schwer erkennen, ob die gewünschte Geste auch von der Sprachausgabe erkannt wurde. All diese kleinen Verzögerungen summierten sich, daher kam es vor, dass Benutzer ihre Versuche über dem richtigen Element abbrachen oder erfolgreiche Gesten wiederholten, weil sie dachten, dass die Geste nicht erkannt wurde.

Audiohinweise

Für Benutzer ohne Sehbeeinträchtigung ist es kaum bedeutend, ob das Abschließen einer Aktion einige Millisekunden in Anspruch nimmt oder nicht. Durch optisches Feedback, z. B. das Hervorheben einer Schaltfläche oder das Animieren eines Flyouts wird unmittelbar angezeigt, dass das System reagiert. Diese Signale sind nicht nur ästhetisch ansprechend, ihre Funktion hilft zu verstehen, wie Berührungen in Echtzeit das System beeinflussen.

Während wir uns durch das Feedback in Bezug auf die Reaktionsfreudigkeit arbeiteten, kamen wir auf die Idee, Audiohinweise für die Sprachausgabe zu nutzen. In der Release Preview sind jetzt akustische Hinweise enthalten; jede Geste verfügt nun über einen zugehörigen Klang, der beim Ausführen der Geste wiedergegeben wird. Diese Hinweise sind schnell, kurz und leicht zu unterscheiden, damit Sie unmittelbar erkennen können, ob Ihre Geste erfolgreich erkannt und die zugehörige Aktion ausgeführt wurde. Einige Beispiele:

Beim Wechsel zum nächsten Element wird ein „Tick“-Klang wiedergegeben.
Beim Aktivieren wird ein „Klick“-Klang wiedergegeben
Beim Bildlauf wird ein „Bewegungston“ wiedergegeben
Beim Auswählen wird ein dumpfer Klang wiedergegeben
Bei Fehlern der Sprachausgabe wird ein „Ploppen“ wiedergegeben, das leicht vom „Ding“ eines Systemfehlers zu unterscheiden ist.
Wenn Sie den Bildschirm mit einem einzelnen Finger untersuchen, gibt die Sprachausgabe für jedes neue Element, das Sie berühren ein „Ticken“ wieder, damit Sie erkennen, dass Sie zu schnell über ein Element gefahren sind, um seine akustische Beschreibung zu hören.

Wir hatten eine Menge Spaß beim Entwickeln und Implementieren dieser Klänge!

Vereinfachen von Interaktionen

Der nächste Schritt bestand darin, das Modell für Fingereingabeinteraktionen zu optimieren. Einige Benutzer hatten Schwierigkeiten beim Verwenden von Mehrfingergesten. Insbesondere hatten einige Benutzer mit der Zweifinger-Streifbewegung für das nächste bzw. vorhergehende Element und der Vierfinger-Streifbewegung für den Bildlauf Probleme. Außerdem beobachteten wir, dass einige Benutzer versehentlich die Befehlslisten (verfügbare Befehle für das Element, Suchfenster usw.) auslösten und infolgedessen der Kontext innerhalb einer App verloren ging.

Als Reaktion haben wir die Interaktion mit der Touch-Sprachausgabe vereinfacht. Das System ist nun toleranter und verfügt über ein einfacheres und einprägsameres Gestenmodell. Die Mehrzahl der Aufgaben in der Sprachausgabe können nun durch Tippen und Streichen mit einem Finger ausgeführt werden. Das überarbeitete Interaktionsmodell ist einfacher und fasst Gesten auf logischere Weise zusammen, wenn Sie eine nicht verwandte Geste ausführen.

Dieses neue Interaktionsmodell wird in der folgenden Tabelle erläutert:

Fingerbewegung	Befehl
Tippen oder Ziehen	Element unter dem Finger vorlesen
Doppeltippen ODER Mit einem Finger halten und mit einem zweiten auf eine beliebige Stelle des Bildschirms tippen	Primäre Aktion ausführen
Dreifachtippen ODER Mit einemFinger halten und mit einem zweiten doppeltippen	Sekundäre Aktion ausführen
Nach links oder rechts streichen	Zum nächsten/vorherigen Element wechseln
Nach oben oder unten streichen	Bewegungsinkrement ändern
Mit einem Finger halten und eine Zweifinger-Tippgeste mit zwei anderen Fingern ausführen	Mit Ziehen beginnen oder zusätzliche Schlüsseloptionen
Zweifinger-Tippgeste	Sprachwiedergabe beenden
Zweifinger-Streifbewegung	Scrollen
Dreifinger-Tippgeste	Fenster mit Sprachausgabeeinstellungen einblenden/ausblenden
Dreifinger-Streifbewegung nach oben	Aktuelles Fenster lesen
Dreifinger-Streifbewegung nach unten	Ab der aktuellen Textposition lesen
Dreifinger-Streifbewegung nach links oder rechts	TABULATOR vor- oder rückwärts
Vierfinger-Tippgeste	Befehle für aktuelles Element anzeigen
Vierfinger-Doppeltippgeste	Suchmodus umschalten
Vierfinger-Dreifachtippgeste	Liste mit Sprachausgabebefehlen anzeigen
Vierfinger-Streifbewegung nach oben oder unten	Semantischen Zoom aktivieren/deaktivieren (der semantische Zoom stellt eine Ansicht höchster Ebene mit großen Inhaltsblöcken bereit)

Verbessern des Orientierungsmodells der Sprachausgabe

Beim Erfassen des Feedbacks von Benutzern der Developer Preview haben wir auch das Orientierungsmodell der Sprachausgabe überprüft. Eine der zentralen Aussagen war, dass sich die Benutzer eine einfache Möglichkeit wünschten, um einfach alle Steuerelemente auf dem Bildschirm, z. B. Schaltflächen, Beschriftungen, Textfelder und Listenelemente, finden zu können, ohne den ganzen Bildschirm absuchen zu müssen. Ein blinder Benutzer verglich dies mit dem Beispiel, dass er beim Betreten eines Hotelzimmers als allererstes den Raum abschreiten würde, um Türen, Schränke, Bett und Badezimmer zu suchen und so das grundlegende „Layout“ des Zimmers zu verstehen. Ganz ähnlich ist das Ziel von Benutzern bei der Orientierung in einer neuen App, sich einen Überblick über den Bildschirminhalt zu verschaffen, bevor sie sich für ihre nächste Aktion entscheiden.

Eine der Möglichkeiten für eine verbesserte Barrierefreiheit für Bildschirmelemente in der Developer Preview waren horizontale Streifbewegungen, um zwischen den Elementen in einem Container zu wechseln, und vertikale Streifbewegungen, um in Container hinein bzw. aus diesen heraus zu navigieren. Dies war ein sehr leistungsfähiges Modell, da so alle zugreifbaren Elemente auf dem Bildschirm gefunden werden konnten und es dem grafischen Aufbau der Benutzeroberfläche exakt entsprach. Allerdings war das Modell nicht intuitiv. Durch das Navigieren in Container hinein bzw. aus diesen Containern hinaus, wurde es schwierig, alle interessanten Elemente auf dem Bildschirm zu entdecken.

Ändern des Standard-Cursormodus

Als Reaktion auf das Feedback haben wir einige Änderungen an der Standardnavigation in der Release Preview vorgenommen. Mithilfe der Navigationsgesten, die nun alle aus Einzelfinger-Streifbewegungen nach links und rechts bestehen, können Sie durch alle Elemente auf dem Bildschirm navigieren. Daher sind keine Kenntnisse über den Aufbau der Benutzeroberfläche mehr erforderlich, um durch diese zu navigieren. Sie müssen lediglich Streifbewegungen ausführen um zum vorhergehenden bzw. nächsten Element zu gelangen und die Sprachausgabe gibt eine lineare Anordnung der wichtigen Elemente auf dem Bildschirm zurück.

So können Sie alle interessanten Elemente in einer App einfach und Schritt für Schritt entdecken und nach Wunsch mit jedem beliebigen Element interagieren. Wenn Sie Informationen zu allen Elementen in einer App wünschen, ohne jedes Mal streifen zu müssen, können Sie mit drei Fingern nach oben streifen, und die Sprachausgabe gibt alle Elemente nacheinander in der richtigen Reihenfolge zurück.

(Hinweis: Dies ist der neue Standardmodus für die Navigation, mit dem Sie sich in neuen Apps orientieren können, indem Sie alle interessanten Elemente durch Streifen nach links oder rechts suchen. Wenn Sie die bisherige Methode der manuellen Navigation durch die verschiedenen Ebenen der Benutzeroberfläche bevorzugen, können Sie den Cursorbewegungsmodus der Sprachausgabe in den Einstellungen der Sprachausgabe auf „Erweitert“ festlegen.

In Windows 8 wurde das Lesen von Webseiten durch die Sprachausgabe erheblich vereinfacht. Die Sprachausgabe verfügt über verschiedene Features, die für das Vorlesen von Webinhalten optimiert sind, z. B. über den Befehl „Lesen starten“, mit dem fortlaufende Abschnitte von Webseiten ohne Unterbrechung vorgelesen werden, oder den Suchmodus, der eine Liste mit verschiedenen Steuerelementen auf einer Seite bereitstellt. Nach der Veröffentlichung der Developer Preview- und Consumer Preview-Builds haben uns viele Benutzer mitgeteilt, dass sie trotz der Nützlichkeit dieser Features einige im Web verbreitete Aufgaben nicht ausführen konnten, z. B. das schnelle Überfliegen von Nachrichten-Schlagzeilen, das Ausführen einer Schnellsuche oder das Suchen nach Börsennotierungen.

Daher wurde dieses Feature überarbeitet, und indem wir uns eingehender mit diesen Szenarien beschäftigten und diese besser verstanden, fanden wir auch Möglichkeiten, diese Szenarien in der Release Preview zu verbessern. Beim Vorlesen von Nachrichten wurde häufig eine Möglichkeit gewünscht, um zu bestimmten Punkten auf der Seite (z. B. Überschriften oder Links) springen zu können, und anschließend Zeile für Zeile oder Buchstabe für Buchstabe vorzulesen. Viele Benutzer wünschten sich diese Befehle für die Sprachausgabe, um präziser im Web navigieren zu können.

Daher haben wir das Konzept der „Ansichten“ zu den Navigationsbefehlen der Sprachausgabe hinzugefügt. Die neuen Ansichten sind im Standardnavigationsmodus verfügbar, sobald Sie sich auf einer Webseite oder in einem anderen zugreifbaren Textfeld befinden, z. B. in der Mail-App. Die Standardelementansicht wechselt durch die Elemente auf der Seite und funktioniert analog zur Elementnavigation im gesamten System. Für zugreifbare Textfelder in Webseiten oder in Mail unterstützt die Sprachausgabe jetzt sieben zusätzliche Ansichten:

Überschriften
Links
Tabellen
Absätze
Zeilen
Wörter
Buchstaben

Die Ansicht kann ganz einfach geändert werden, indem Sie nach oben oder unten und dann nach links oder rechts streifen, um durch die Elemente dieser Ansicht zu navigieren. Die Befehle sind ebenso mithilfe der FESTSTELLTASTE und den PFEILTASTEN auf einer Tastatur verfügbar.

Mit den neuen Ansichten wurde das Vorlesen von Webinhalten in der Release Preview weiter verbessert. Die Ansichten funktionieren auch in Kombination mit anderen Befehlen. Wenn Sie beispielsweise eine interessante Schlagzeile finden und weitere Informationen wünschen, können Sie mit drei Fingern nach unten streifen und die Sprachausgabe liest den gesamten Seiteninhalt vor, bis Sie die Wiedergabe anhalten.

Abschluss

Diese Beispiele stellen einige der größten Aufgaben dar, die wir als Reaktion auf das Feedback von Benutzern unternommen haben, die die Sprachausgabe in der Developer Preview und der Consumer Preview getestet haben. Wir haben noch zahlreiche andere Verbesserungen als Reaktion auf Ihr Feedback umgesetzt, beispielsweise das Vorlesen von Fingereingabegesten, durch das Sie Informationen zur Aktivierung von Elementen erhalten, eine für die Fingereingabe optimierte Benutzeroberfläche der Sprachausgabeneinstellungen und eine neue Einstellung, durch die die Eingabe auf der Bildschirmtastatur vereinfacht wird. Auch wenn wir der Ansicht sind, dass die Sprachausgabe nun über alle erforderlichen Features verfügt, sind wir immer noch mit dem Beheben von Problemen und dem Feintuning beschäftigt, bevor Windows 8 fertig ist.

Wir haben uns sehr über das Feedback einer so großen Anzahl von Personen gefreut, die die Sprachausgabe ausprobiert haben. Wir haben uns mit Begeisterung mit einzelnen Benutzern durch unsere Anwendungsstudien gearbeitet, sei es bei der CSUN-Konferenz oder innerhalb der Microsoft-Community. Vielen Dank für das tolle und konstruktive Feedback, durch das wir diese wichtigen Änderungen an der Sprachausgabe für die Release Preview umsetzen und dieses Feature so erheblich verbessern konnten.

Während wir uns auf die Auslieferung von Windows 8 vorbereiten, würden wir uns freuen, wenn Sie die Release Preview selbst herunterladen und installieren, um die Sprachausgabe auszuprobieren.

Hinweis: Für die in diesem Blogbeitrag beschriebenen Fingereingabefeatures sind Touchscreens erforderlich, die mindesten vier Kontaktpunkte unterstützen. Diese Anforderung wird von Windows 8-zertifizierter Touch-Hardware erfüllt, möglicherweise ist dies bei einigen aktuellen Windows 7-Geräten jedoch nicht der Fall. (Weitere Informationen erhalten Sie in diesem Blogbeitrag .) Wenn Sie über keinen Touchscreen verfügen, der vier Kontaktpunkte unterstützt, können Sie die Sprachausgabe auch mit der Tastatur verwenden.

Vielen Dank!

– Doug Kirschner

Partager via