Sprachausgabe von Blinden – warum ist sie so schnell und künstlich

Bei meinen Workshops lasse ich den Screenreader im Hintergrund laufen. Zum Einen möchte ich natürlich wissen, bei welcher Folie ich gerade bin. Zum Anderen ist das auch für die Teilnehmer spannend zu sehen, wie Blinde überhaupt am Computer arbeiten können. Fast immer werde ich gefragt, warum ich die Sprachausgabe so schnell eingestellt habe. Hier also die ultimative Antwort.

Was zum Lesen

Sehende Leser lesen in der Regel mit einer Geschwindigkeit von 200 bis 300 Wörtern. Es gibt hier deutliche Ausreißer nach oben und unten. Funktionale Analphabeten lesen deutlich langsamer. Erfahrene Leser wie Journalisten oder Professoren lesen deutlich schneller.
Im Allgemeinen sagt man, dass man mindestens 150 Wörter pro Minute lesen können muss, um sinnerfassend zu lesen. 150 Wörter entspricht der durchschnittlichen Sprech- und Vorlese-Geschwindigkeit.
Daran seht ihr, dass die Lesegeschwindigkeit deutlich schneller ist als die Sprechgeschwindigkeit. Die meisten von uns würden uns langweilen, wenn wir einen Text selbst in der Geschwindigkeit lesen, wie wir ihn vorlesen würden.
Blinden geht es dabei nicht anders. Sobald sie ein bisschen Erfahrung mit dem Computer haben, schalten sie die Standardeinstellung ihrer Sprachausgabe hoch. Das müssen nicht unbedingt 100 Prozent sein wie bei mir, aber ich kenne keinen erfahrenen Nutzer, der seine Sprachausgabe in der für Menschen üblichen Sprechgeschwindigkeit ablaufen lässt.
Zu meinen Kassetten-Zeiten – das sind diese Plastikdinger, in denen sich so ein komisches Band dreht – hatte ich einen Kassettenrekorder, mit dem ich die Abspielgeschwindigkeit steuern konnte. Ich habe mir einen Spaß daraus gemacht, meine Musik wie Micky Mouse klingen zu lassen. Für die Hörbücher war das auch ganz praktisch. Viele Sprecher sind relativ langsam und monoton, so dass auch der spannenste Stoff einschläfernd wirken kann. Ich behaupte mal, man kann fast jedes Hörbuch um 20 – 30 Prozent schneller abspielen lassen, ohne dass der Unterschied den Hörer stört oder wirklich auffällt. So kann man aus einem zehnstündigen Hörbuch ein siebenstündiges machen. Viele Apps wie Audible unterstützen das schnellere Abspielen. Wahrscheinlich, damit man schneller mit dem einen Hörbuch fertig ist und sich schnell ein neues kauft.
Bei der Sprachausgabe sieht die Sache noch ein wenig besser aus. Auch die besten Sprecher haben unsauberkeiten beim Vorlesen. Die Veränderung der Stimmlage und Betonung ist ein störender Faktor, wenn es vor allem um Information geht und ich den Text möglichst schnell lesen will. Zudem modulieren die Sprecher ja selbst die Vorlesegeschwindigkeit.
Bei 50 Prozent Tempoerhöhung ist bei den meisten menschlichen Sprechern Schluss. Danach kann man den Sprecher zwar noch verstehen, muss sich aber enorm konzentrieren. Und viel geht auch verloren, wenn man kurz abgelenkt ist. Schwierig ist auch, wenn man zwei Personen hat, deren jeweilige Sprechgeschwindigkeit stark variiert.
Deshalb und auch wegen dem Komfort lese ich Sachbücher lieber mit dem Screenreader am PC. Es kommt – so meine Theorie – für gewöhnte Screenreadernutzer dem visuellen recht nah, zumindest wesentlich näher als dem Hören von Hörbüchern.
Nach meiner Einschätzung ist es kein Problem, den Screenreader in der eigenen Muttersprache auf 350 Wörter pro Minute einzustellen, also etwas schneller als ein guter Leser lesen würde. Schwieriger wird es, wenn der Inhalt sehr komplex ist, viele neue Informationen enthält oder man sich nicht konzentrieren kann. Ist der Text nicht in der Muttersprache, ist eine starke Erhöhung der Lese-Geschwindigkeit eher schwierig.

Bekannte Infos ausblenden

Eine der nervtötesten Sachen für einen blinden Computernutzer ist es, sich Informationen anhören zu müssen, die er bereits hat. Zum Beispiel suche ich eine bestimmte Information in einer Tabelle. Ein Sehender überfliegt Spalten und Zeilen ohne große Probleme. Ein Blinder muss sich im schlimmsten Fall alle Werte einer Spalte oder Zeile vorlesen lassen. Wobei der Screenreader noch dazwischen funkt, weil er bei jeder Zelle nicht nur den Wert vorliest, sondern auch die Position der Zelle und die Überschrift des Bereichs. Dann wird also aus „13 Prozent“:
„Spalte 13, Zeile 9 Wahlergebnis 2013 13 Prozent“. Und bis man die Zelle gefunden hat, muss man sich das einige Male anhören. Das ist keine Barriere, aber es nervt natürlich. Und wenn man es sich anhören muss, dann soll es bitte so schnell wie möglich vorbei sein.
Selbiges gilt für viele Bereiche. Klar möchte ich wissen, dass es eine Überschrift, ein Menü, eine Checkbox etc. ist. Aber bitte nicht in alltäglicher Sprechgeschwindigkeit. Ich würde echt wahnsinnig werden, wenn ich mir das alles im Detail anhören müsste.

Gedächtnis und Mustererkennung

Last not least wissen wir ja schon, was da steht. Meine Präsentationen habe ich schon tausend mal gehalten. Da ich weiß, was auf der Folie steht, reichen mir oft die ersten zwei Wörter aus dem Titel, um den Rest aus meinem Gedächtnis zu ergänzen.
Der Kontext hilft uns dabei, wichtige Informationen zu filtern. Wenn ich höre „Bahnchef“ wird das nächste Wort wahrscheinlich „Grube“ lauten. Deswegen wünschen sich Blinde auch, dass Ämter und Geschäftsführer niemals wechseln. Sie müssen sich dann immer umgewöhnen. Kleiner Scherz am Rande.
Auch die Mustererkennung hilft uns natürlich. Texte und Webseiten sind häufig nach einem bestimmten Schema aufgebaut. Typisch ist z.B. Navigation, Suchfeld, Inhalt, dritte Spalte und Fußzeile. Ohne dieses Schema müssten wir uns jede Website neu aneignen. Die Navigationspunkte sind auch noch in der Regel auf vielen Websites ähnlich bekannt. Ich ernte bei meinen Screenreader-Demos immer große Lacher, wenn ich auf irgend ein Wort stoße, was ich nicht kenne und das der Runde kund tue.

Warum klingen viele Sprachausgaben künstlich?

Es gibt mittlerweile eine ganze Reihe an natürlicher klingenden Stimmen. Man hört sie in der Bahn oder im Bus, bei den Sprach-Assistenten oder in Telefonschleifen. Und natürlich laufen Sie auch auf den -Smartphones.
Diese Sprachausgaben klingen gut, wenn man sie mäßig beschleunigt. Doch gerade bei hohen Geschwindigkeiten steigen sie schnell aus. Die überkorrekte Betonung wird hier zum Nachteil.
Die „alten“ Sprachausgaben hingegen bestehen aus künstlich erzeugten Phonemen. Sie sind außerdem schlank, was sie relativ performant macht, das heißt, sie kommen nicht so schnell an Leistungsgrenzen wie die natürlich erzeugten Sprachausgaben.
Versteht mich nicht falsch: Braille ist sicher eine gute Sache. Und wenn man geübt ist, kann man sicherlich 100 Wörter pro Minute schaffen. Gerade für strukturierte Infos wie Tabellen wäre ein

Braille

flächiges Brailledisplay eine Riesen-Erleichterung. Aber gerade für Vielleser wie mich sind 100 Wörter pro Minute zu wenig. Zumal ich an diese Geschwindigkeit nicht heran komme und es wahrscheinlich auch nie schaffen werde. Ich bin bei ca. 60 Wörtern pro Minute, was mich schon viel Übung gekostet hat.
Als Blinder ist man bei vielen Arbeitsgelegenheiten ohnehin schon langsamer. Da muss ich mir dieses Paket nicht auch noch aufbürden.
Screenreader and Speech output from blind persons – why is it so fast and sounds artificial?