Mensch schlägt Automat – Bild-Beschreibungen für Blinde heute und morgen

Farbige Blasen enthalten Fragen wie Wer, Was und WoIn den letzten Jahren hat die Technik der automatischen Bild-Erkennung große Fortschritte gemacht. Die Gesichtserkennung auf Fotos ist mittlerweile fast Mainstream.
Es gibt durchaus Blinde oder zumindest Leute, die ganz schlecht sehen und fotografieren. Andere wollen erfahren, was zum Teufel auf dem Foto abgebildet ist, dass sie da in ihrem überquellenden Sonstiges-Ordner gesammelt haben. Dafür wäre eine automatische Objekt-Erkennung äußerst hilfreich.
Das aktuelle iOS, der Chrome-Browser auf dem Desktop und einige Social-Media-Dienste wie Facebook haben die automatische Objekt-Erkennung auf Bildern integriert. Google und Microsoft bieten zusätzliche Apps zur Bild-Beschreibung an.

Cloud, Mustererkennung und Maschinen-Lernen

Es dürfte nur eine Frage der Zeit sein, bis die Erkennung von Objekten in Echtzeit – also in dem Moment, in dem man das Objekt fixiert, möglich wird. Das würde die Möglichkeiten für Blinde stark erweitern: Erkennt eine App beliebigen Text in einer Umgebung wie Straßenschilder oder Displays, kann sie diese automatisch vorlesen. Apps könnten Objekte erkennen, die im Weg stehen und eine intelligente Möglichkeit zur Umgehung von Hindernissen anbieten. Voraussetzung dafür sind allerdings smarte Brillen. Selbst der geduldigste Mensch hat keine Lust, ständig das Smartphone in der Hand zu halten.
Die Technik könnte auch bei Abbildungen im Internet genutzt werden. Alternativtexte sind vor allem im Web 2.0 unzureichend formuliert. Auf Facebook , Twitter oder WhatsApp werden viele Fotos geteilt. Die Bereitschaft der Leute, Fotos auch nur rudimentär zu beschreiben ist teils gering, teils vergessen sie es auch einfach.
Als Blinder hat man auch keine Lust, Zeit und Nerven dafür, die Leute ständig daran zu erinnern.

Automatische Bild-Beschreibungen aktuell

Wie oben erwähnt gibt es mittlerweile in vielen Systemen verfügbare automatische Bild-Beschreibungen.
Ob man dank dieser Beschreibungen die von Absender intendierte Aussage hinter dem Bild tatsächlich verstehen wird, ist leider schwierig zu beantworten. Oft genug verstehe ich den Witz auch nicht, wenn mir jemand den Bild-Inhalt erklärt.
Die Weiter-Entwicklung hat meines Erachtens in den letzten Jahren stagniert. Gehen wir mal davon aus, dass die großen Anbieter auf einem ähnlichen Stand sind bzw. die gleichen Algorithmen nutzen, sind die Beschreibungen nach wie vor sehr rudimentär. iOS erkennt auf einem Bild, auf dem zwei Hände abgebildet sind „Unter Wasser“, es sagt bei einem Personen-Foto „Erwachsener“. Facebook erkennt zwar Text auf einem Bild, aber wandelt den Text nicht automatisch in eine für Blinde lesbare Form um.
Nun ist es wahrscheinlich, dass die Anbieter nicht alle Möglichkeiten tatsächlich nutzen bzw. öffentlich bereit stellen, über die sie verfügen. Wichtige Features bleiben wahrscheinlich Power-Usern, die dafür bezahlen, vorbehalten. Doch sollte man meinen, dass man ein wenig mehr vom Fortschritt auch mitbekommt.
Nun geraten wir auch bei Bild-Beschreibungen schnell in schwieriges Fahrwasser – ja, auch sie haben eine politische Dimension. Darf ein Algorithmus sagen, dass jemand dunkelhäutig, bärtig, älter, attraktiv, übergewichtig ist, dass er Pickel hat, eine Brille trägt, dass er traurig schaut und so weiter? Manches davon ist relativ gut automatisch ermittelbar, anderes ist Interpretation. Und manches ist politisch heikel, wenn etwa das Geschlecht oder die ethnische Gruppe falsch erkannt wird. Wahrscheinlich werden wir demnächst über solche Fragen diskutieren müssen.

Wo WoManpower gefragt ist.

KI und Mustererkennung stoßen an ihre Grenzen, wo komplexe Beschreibungen gefragt sind. Kunstwerke können zwar als Anreihung von Objekten beschrieben werden, aber kein Kunstliebhaber würde sich damit zufrieden geben. Frau mit langen dunklen Haaren lächelt ist eine korrekte, aber doch unzureichende Beschreibung der Mona Lisa. Aber selbst hier könnten Algorithmen helfen, eine anständige Beschreibung zu formulieren. Es ist ja keine große Sache für einen Computer, Lichtverhältnisse oder Farbkombinationen auf einem Bild zu erkennen und zu beschreiben.
Hier kommt auch die WoManpower ins Spiel. Es ist schon toll, wenn ein Mensch sich hinseetzt und eine detailierte Beschreibung eines Bildes formuliert. Da aber Kunst immer eine Frage der persönlichen Perspektive ist, ist es hilfreich, möglichst viele Beschreibungen verschiedener Personen zu haben. Nebenbei profitieren auch Sehende davon, denn sie erfahren über die Beschreibung Anderer oft etwas, was sie sonst übersehen hätten. Oder habt ihr nicht den Eindruck, dass wir oft nur oberflächlich auf Landschaften oder Fotos schauen? Die Beschreibung für Blinde von was auch immer zwingt die Sehenden dazu, sich intensiver mit einer Sache zu beschäftigen, als sie es sonst tun würden.
Für ein Diagramm kann mit einem Alternativtext bestenfalls seine grobe Tendenz beschrieben werden. Im Folgenden möchte ich ein paar Ansätze vorstellen, wie sich das Problem lösen lässt.

Navigierbare Beschreibungen

Für komplexe Grafiken erscheint es am sinnvollsten, wenn man sie mit einem Teil des HTML-Standards beschreiben könnte. Das heißt, wir haben Überschriften, Paragraphen, Tabellen und die weitere Elemente. Für Sehende wären diese Beschreibungen natürlich nicht oder nu auf Anforderung sichtbar.
Der Vorteil besteht darin, dass wesentlich mehr strukturierte Informationen untergebracht werden können als in einem simplen Alternativtext oder einer Long Description. Ich fände es auch nicht schlecht, wenn diese Beschreibung optional auch von hochgradig Sehbehinderten oder visuellen Analphabeten gelesen werden könnte. Zumindest für Blinde könnte man das heute schon umsetzen, in dem man Techniken einsetzt, die Inhalte aus dem für Sehende wahrnehmbaren Bereich der Seite verschieben. In der Regel ist es aber besser, sich an die Standards von HTML zu halten.
Eine Möglichkeit für quantitative Diagramme, die aus einer Tabelle erzeugt wurden besteht darin, die Tabelle in der Grafik zu hinterlegen. In PDFs werden oft aus Platzgründen Tabellen weggelassen, doch sie bieten sowohl für Sehbehinderte als auch für Blinde die beste Alternative zu einer solchen Grafik. Auch hier sollte es möglich sein zu tricksen, in dem man zum Beispiel der Tabelle eine Ausdehnung von 0 Pixel gibt, aber korrektes HTML zur Auszeichnung einsetzt oder indem man sie einfach aus dem sichtbaren Bereich schiebt.

Beschreibung von Einzel-Elementen

Eine weitere Möglichkeit besteht darin, die relevanten Segmente von Vektorgrafiken einzeln zu beschriften und für Screenreader zugänglich zu machen. Ich stelle mir vor, dass man dann mit den Cursortasten des Computers zum Beispiel ein Organigramm systematisch durchgehen kann. Oben steht die Geschäftsführung, mit einem Druck auf Pfeil runter landet man in der zweiten Führungsebene, mit links und rechts kann man sich in dieser Ebene bewegen, mit Pfeil runter geht man in die zweite Führungsebene und so fort. So ließen sich auch Logistikketten und andere komplexe Grafiken erschließen. Für das Verständnis nicht relevante Elemente wie Verbindungslinien sollten für den Screenreader ausgeblendet werden. Formate wie SVG sind ohnehin textbasiert, so dass sich solche Informationen problemlos unterbringen ließen.

Fazit: Menschliche Beschreibungen werden bis auf Weiteres gebraucht

Vor einigen Jahren war ich noch wesentlich optimistischer, was automatisch generierte Bild-Beschreibungen leisten können. Heute sind sie einerseits auf vielen Plattformen verfügbar. Andererseits hat sich ihre Qualität nicht deutlich verbessert.
Wir werden also bis auf absehbare Zeit auf menschen-generierte Bildbeschreibungen zurückgreifen müssen.

Print Friendly, PDF & Email