Die Zukunft der Bild-Beschreibung

In den letzten Jahren hat die Technik der automatischen Bild-Erkennung große Fortschritte gemacht. Apps wie TapTapSee zum Beispiel erkennen Objekte und können sie beschreiben. Es macht unheimlich viel Spaß auszuprobieren, was die App schon erkennen kann. Die Gesichtserkennung auf Fotos ist mittlerweile fast Mainstream.
Es gibt durchaus Blinde oder zumindest Leute, die ganz schlecht sehen und fotografieren. Andere wollen erfahren, was zum Teufel auf dem Foto abgebildet ist, dass sie da in ihrem überquellenden Sonstiges-Ordner gesammelt haben. Dafür wäre eine automatische Objekt-Erkennung äußerst hilfreich.

Cloud, Mustererkennung und künstliche Intelligenz

Es dürfte nur eine Frage der Zeit sein, bis die Erkennung von Objekten in Echtzeit – also in dem Moment, in dem man das Objekt fixiert, möglich wird. Die größte Latenz dürfte heute dadurch entstehen, dass die Intelligenz nicht im Smartphone, sondern in der Cloud steckt und dadurch abhängig davon ist, wie flott der Internet-Zugang und wie schnell die Server sind. Wenn wir zumindest einen Teil der Intelligenz zurück in die Geräte holen – was von der Performanz her kein Problem sein dürfte, dürften sich die Möglichkeiten für Blinde enorm verbessern. Ich könnte mir vorstellen, dass eine smarte Brille die Bilder aufnimmt und sie von einem zweiten Gerät verarbeitet werden. Die OrCam verspricht schon heute einiges, spielt aber auch in einer preislich höheren Liga.
Die Technik könnte auch bei Abbildungen im Internet genutzt werden. Alternativtexte sind vor allem im Web 2.0 unzureichend formuliert. Auf Facebook , Twitter oder WhatsApp werden viele Fotos geteilt. Die Bereitschaft der Leute, Fotos auch nur rudimentär zu beschreiben ist teils gering, teils vergessen sie es auch einfach. Twitter und WhatsApp haben alternative Bildbeschreibungen für Blinde gar nicht erst vorgesehen. Facebook glaubt ernsthaft, dass „Domingos de Oliveiras Foto“ ein passender Alternativtext für ein Foto ist, das Domingos de Oliveira eingestellt hat. Zumindest ist das der Text, der automatisch hinzugefügt wird, wenn der Uploader nichts in das entsprechende Feld schreibt. Das ist es natürlich nicht, ob ich den Uploader oder Fotografen kenne oder nicht, hilft mir bei der Bild-Erkennung nicht weiter.
Als Blinder hat man auch keine Lust, Zeit und Nerven dafür, die Leute ständig darauf hinzuweisen.
Abhilfe könnten automatische Erkennungs-Algorithmen wie in dem erwähnten TapTapSee schaffen. Wolfram Language, Microsoft Bilderkennung oder Google arbeiten ebenfalls an Tools zur automatischen Bild-Erkennung.
Für Tech-Größen wie Facebook und Twitter dürfte es weder technisch noch von der nötigen Rechenpower schwierig sein, solche Algorithmen zu integrieren. Damit könnten sie auch zumindest einen Teil der Kritik an ihrer schlechten Barrierefreiheit ausräumen. Möglich wäre natürlich auch, das Ganze via Browser-Erweiterung auf den Nutzer zu übertragen, dann spielt es keine Rolle, welche Plattform man nutzt.
Ob man dank dieser Beschreibungen die von Absender intendierte Aussage hinter dem Bild tatsächlich verstehen wird, ist leider schwierig zu beantworten. Oft genug verstehe ich den Witz auch nicht, wenn mir jemand den Bild-Inhalt erklärt.

Wo Manpower gefragt ist.

KI und Mustererkennung stoßen an ihre Grenzen, wo komplexe Beschreibungen gefragt sind. Kunstwerke können zwar als Anreihung von Objekten beschrieben werden, aber kein Kunstliebhaber würde sich damit zufrieden geben. Frau mit langen dunklen Haaren lächelt ist eine korrekte, aber doch unzureichende Beschreibung der Mona Lisa. Aber selbst hier könnten Algorithmen helfen, eine anständige Beschreibung zu formulieren. Es ist ja keine große Sache für einen Computer, Lichtverhältnisse oder Farbkombinationen auf einem Bild zu erkennen und zu beschreiben.
Hier kommt auch die Manpower ins Spiel. Es ist schon toll, wenn ein Mensch sich hinseetzt und eine detailierte Beschreibung eines Bildes formuliert. Da aber Kunst immer eine Frage der persönlichen Perspektive ist, ist es hilfreich, möglichst viele Beschreibungen verschiedener Personen zu haben. Nebenbei profitieren auch Sehende davon, denn sie erfahren über die Beschreibung Anderer oft etwas, was sie sonst übersehen hätten. Oder habt ihr nicht den Eindruck, dass wir oft nur oberflächlich auf Landschaften oder Fotos schauen? Die Beschreibung für Blinde von was auch immer zwingt die Sehenden dazu, sich intensiver mit einer Sache zu beschäftigen, als sie es sonst tun würden.
Für ein Diagramm kann mit einem Alternativtext bestenfalls seine grobe Tendenz beschrieben werden. Im Folgenden möchte ich ein paar Ansätze vorstellen, wie sich das Problem lösen lässt.

Navigierbare Beschreibungen

Für komplexe Grafiken erscheint es am sinnvollsten, wenn man sie mit einem Teil des HTML-Standards beschreiben könnte. Das heißt, wir haben Überschriften, Paragraphen, Tabellen und die weitere Elemente. Für Sehende wären diese Beschreibungen natürlich nicht oder nu auf Anforderung sichtbar.
Der Vorteil besteht darin, dass wesentlich mehr strukturierte Informationen untergebracht werden können als in einem simplen Alternativtext oder einer Long Description. Ich fände es auch nicht schlecht, wenn diese Beschreibung optional auch von hochgradig Sehbehinderten oder visuellen Analphabeten gelesen werden könnte. Zumindest für Blinde könnte man das heute schon umsetzen, in dem man Techniken einsetzt, die Inhalte aus dem für Sehende wahrnehmbaren Bereich der Seite verschieben. In der Regel ist es aber besser, sich an die Standards von HTML zu halten.
Eine Möglichkeit für quantitative Diagramme, die aus einer Tabelle erzeugt wurden besteht darin, die Tabelle in der Grafik zu hinterlegen. In PDFs werden oft aus Platzgründen Tabellen weggelassen, doch sie bieten sowohl für Sehbehinderte als auch für Blinde die beste Alternative zu einer solchen Grafik. Auch hier sollte es möglich sein zu tricksen, in dem man zum Beispiel der Tabelle eine Ausdehnung von 0 Pixel gibt, aber korrektes HTML zur Auszeichnung einsetzt oder indem man sie einfach aus dem sichtbaren Bereich schiebt.

Beschreibung von Einzel-Elementen

Eine weitere Möglichkeit besteht darin, die relevanten Segmente von Vektorgrafiken einzeln zu beschriften und für Screenreader zugänglich zu machen. Ich stelle mir vor, dass man dann mit den Cursortasten des Computers zum Beispiel ein Organigramm systematisch durchgehen kann. Oben steht die Geschäftsführung, mit einem Druck auf Pfeil runter landet man in der zweiten Führungsebene, mit links und rechts kann man sich in dieser Ebene bewegen, mit Pfeil runter geht man in die zweite Führungsebene und so fort. So ließen sich auch Logistikketten und andere komplexe Grafiken erschließen. Für das Verständnis nicht relevante Elemente wie Verbindungslinien sollten für den Screenreader ausgeblendet werden. Formate wie SVG sind ohnehin textbasiert, so dass sich solche Informationen problemlos unterbringen ließen.

Alternativen sind unabdingbar

Wie auch immer die Lösung aussehen wird, klar ist, dass wir Alternativen zum Alternativtext brauchen. Komplexe Grafiken spielen für fast alle Arbeitnehmer sowie Studierende eine große rolle. Die Anforderungen können vom Alternativtext nicht abgedeckt werden.

Print Friendly, PDF & Email