Künstliche Intelligenz und Barrierefreiheit

In den letzten Jahren feiert die künstliche Intelligenz-Forschung ein großes Revival und wahrscheinlich ihren endgültigen Einzug in den Mainstream. Warum das auch für behinderte Menschen gut ist, erfahrt ihr in diesem Beitrag.

Inhalt

Künstliche Intelligenz – und ich kann selbst entscheiden

Barrierefreiheit konsequent umgesetzt erhöht die Kosten oft erheblich. Wer schon einmal eine mittelgroße Website in Leichte Sprache übersetzen lassen wollte, weiß sicher, was ich meine. Von Gebärdensprache sprechen wir erst gar nicht.
Das schränkt aber auch die Wahlfreiheit behinderter Menschen ein. Wer auf Gebärdensprache angewiesen ist, muss sich mit den wenigen vorhandenen Angeboten begnügen oder eine Gebärdendolmetscherin engagieren. Es ist aber ein Gebot der Demokratie und der Inklusion, auch solche Gruppen zu unterstützen.
Andererseits werden die Übersetzungsprogramme immer leistungsfähiger. Während die Qualität dieser Programme vor allem von Rechenpower und Mustererkennung abhängig war, kommt immer stärker die KI ins Spiel. Sie kann Zusammenhänge und Muster deutlich besser erkennen als rein statistisch arbeitende Algorithmen. Neuronale Netze können trainiert werden und lernen dazu. Sie werden mit der Zeit immer besser. Wer heute von KI spricht, meint in der Regel Maschinen-Lernen, das ist ein Teil von KI, aber natürlich nicht der Einzige Zweig.

Bildbeschreibungen

Es gibt bereits Tools, die automatische Bildbeschreibungen erzeugen. Facebook, Instagram, Edge und Chrome fügen automatisch Beschreibungen zu Bildern hinzu, die noch nicht beschrieben sind, ebenso PowerPoint oder Word. Es gibt einige Apps wie SeeingAI, MVision AI: und weitere, die Bilder und Szenen beschreiben können.
Was die Tools derzeit noch ausspielen ist manchmal brauchbar und manchmal nicht. Doch werden die Algorithmen stetig besser.
Während einzelne Bilder sich noch recht gut von Menschen beschreiben lassen, wird es schwierig, wenn es um tausende von Bildern geht. Das ist zum Beispiel für Unternehmen interessant, die viele Bilder beschreiben lassen wollen, etwa im eCommerce. Oder für Bilddatenbanken. Vernünftige Bildbeschreibungen zu einem akzeptablen Preis zu erhalten ist schwierig. Ein ausreichend gut trainierter Algorithmus macht das im Handumdrehen.
Der Vorteil für Blinde und Sehbehinderte ist, dass sie Bildbeschreibungen in ganz unterschiedlicher Ausführlichkeit erhalten könnten. Für die Einen reicht „Schwarzer Turnschuh“ vollkommen aus. Andere wollen vielleicht wissen, welche Muster vorhanden sind, welcher Schwarz-Ton und so weiter.

Spracherkennung und automatische Beschreibungen

Eine Achilles-Ferse von Apple ist die im Vergleich schlechte Spracherkennung. Versucht einmal, etwas Englisches wie einen Songtitel zu diktieren. Auch in diesem Bereich könnte die KI deutliche Fortschritte bringen.
Das hieße zum Beispiel dass Audio- und Video-Inhalte deutlich schneller und günstiger in Text transkribiert werden könnten. Sogar Untertitel für Gehörlose sind denkbar, wenn sich die Erkennung von Geräuschen auch so gut entwickelt.
Ich könnte mir sogar vorstellen, dass es irgendwann automatische Audiodeskriptionen gibt. Bis dahin ist es aber sicher noch ein längerer Weg. Algorithmen, die Szenen beschreiben gibt es allerdings schon.

Automatisches Tagging von Dokumenten

Im Internet liegen Millionen nicht-barrierefreier Dokumente, vor allem PDF-Dateien. Bestehende und neue Dokumente barrierefrei zu machen, wie es etwa von der EU-Richtlinie gefordert wird, ist weder personell noch finanziell machbar. Der Aufwand ist zu groß und selbst wenn es finanzierbar wäre, es gibt gar nicht genügend qualifizierte Personen für diese Aufgabe, weil der Prozess zu komplex und zeitaufwendig ist.
Eine Lösung wäre, die Dokumente automatisch barrierefrei zu machen. Mustererkennung von Text-Elementen ist heute keine große Herausforderung mehr, ebenso ist die automatische Beschreibung von Bildern und Grafiken schon mit heutiger Technik machbar. Sind die Dokumente innerhalb einer Organisation nach einer bestimmten visuellen Struktur aufgebaut, könnte ein Algorithmus, der entsprechend trainiert wurde das mit einer akzeptablen Fehlertoleranz problemlos bewerkstelligen. Werden Dokumente in strukturierter Form, etwa mit Latex oder XML erzeugt, bräuchte man gar keine KI. Und keine PDF.

Mehr Kontrolle für den User notwendig

Solche Beispiele ließen sich endlos aneinander reihen. SeeingAI etwa von Microsoft kann Gegenstände oder Umgebungen erkennen und beschreiben. Die Möglichkeiten, die es in einer nicht allzu fernen Zukunft geben könnte, vermögen wir uns heute noch nicht vorzustellen.
Ein Problem besteht allerdings darin, dass diese Programme allesamt in der Hand der großen Player sind. Von Open Source in der KI habe ich bisher wenig gehört.
Das heißt, diese Tools können nur in geschlossenen Umgebungen verwendet werden. Möchte ich einen Alternativtext zu einem Bild, soll ich es erst mal bei Facebook hochladen. Für Untertitel lade ich das Video bei YouTube hoch. Mal abgesehen von Datenschutz und mangelndem Komfort schränkt das die Möglichkeit der Selbstbestimmung doch drastisch ein.
Interessant wird die KI, wenn ihre Kernfunktionen unabhängig von einer bestimmten Plattform bereit stehen. Ich möchte etwa jede beliebige Seite in Leichte Sprache übersetzen oder mir von einem beliebigen Bild einen Alternativtext erstellen lassen, ohne Copy-Paste oder Hick-Hack mit einem Datensammler. Erst dann kann die KI für uns ihre volle Wirkung entfalten.

Accessibility Overlays = KI-Trash

Accessibility Overlays sind Tools, die versprechen, Barrierefreiheit automatisch herzustellen. Lassen Sie mich vorneweg feststellen: Diese Tools sind absolut unzureichend, was die Barrierefreiheit angeht. In den USA sind bereits mehrere Website-Betreiber verklagt worden, welche solche Overlays eingesetzt haben. Die Overlay-Anbieter selbst kann man nicht verklagen, da ihre falschen Versprechen offenbar nicht justiziabel sind. Wie so oft gilt hier: Je aggressiver das Marketing und die Akquise, desto geringer ist der Nutzen des Produkts. Bei einigen dieser Anbieter wäre das Wort Betrug angebracht.
Die Herausforderung besteht darin, eine komplexe Website barrierefrei zu machen. Das geht teilweise automatisch bei Bild-Beschreibungen, Untertiteln oder dem Ausblenden von Störungen. Es geht nicht automatisch bei Formularen oder anderen komplexen elementen. Sehr wahrscheinlich wird es in absehbarer Zeit möglich werden, dann werden es aber nicht die fast betrügerisch agierenden Overlay-Unternehmen sein, die heute am Markt sind.

Testing

Während automatische Barrierefreiheit jenseits der genannten Bereiche noch in großer Ferne liegt, kann KI im Bereich Testing Verbesserungen bringen. Vor allem komplexe Widgets oder Custom Elements stellen Entwickler:Innen vor größere Herausforderungen. Wenn automatische Test-Routinen verbessert werden, kann dies die Qualität von Anwendungen in Zukunft deutlich verbessern.

Computer-unterstützte Erstellung von verständlicher Sprache

Wird es irgendwann möglich sein, Texte automatisch in verständlichere Versionen zu übertragen, etwa in Leichte oder einfache Sprache? Zumindest in absehbarer Zeit nicht, zumindest nicht 100 % akkurat.
Was heute gut funktioniert ist die Übersetzung von einer in eine andere Sprache. Hier braucht man aber andere Heuristiken. Übersetzungs-Programme erkennen grammatikalische Muster im Ursprungstext und können diese in die andere Sprache übersetzen. Bei der Übertragung in verständliche Sprache hingegen ist gefragt, zunächst Fakten aus dem Originaltext zu extrahieren. Man muss erkennen, was die Autorin sagen möchte und was relevant ist. Das muss dann in Leichte Sprache übertragen und mit Bildern ergänzt werden. Wir kommen in den Bereich Natural Language Processing.
Was aber gut funktioniert und sich verbessern dürfte ist die Abnahme zeitraubender Aufgaben wie das Finden und automatische Übertragen von langen Wörtern oder Sätzen. Auch das Extrahieren von Fakten aus einem Text und das Beseitigen von Füllwörtern könnte deutlich besser werden.
Was mittlerweile gut funktioniert ist das Zusammenfassen von Texten. ChatGPT kann auch Texte vereinfachen. Was bisher nicht funktioniert ist das Neu-Strukturieren von Informationen, das ist bei komplexen und schlecht strukturierten Texten manchmal notwendig.
Das interessante an auf Chats basierenden generativen KI’s ist die Möglichkeit, Rückfragen zu stellen. Dies kann das Verstehen deutlich vereinfachen und ist meines Erachtens revolutionär. Gerade das Extrahieren von relevanten Informationen kann für Menschen, die das nicht gelernt haben schwierig sein. Das könnte mit Chat-Programmen deutlich vereinfacht werden.

Warum die Kritik an KI oft nicht sinnvoll ist

Es gibt ein interessantes Phänomen: Jeder glaubt, KI könnte viele Jobs überflüssig machen, nur der eigene ist nie betroffen. Eine Software kann nicht das, was ich kann. Und das stimmt teilweise auch.
Dennoch beruht die Kritik an der KI oft auf falschen Schlussfolgerungen. Ein Beispiel besagt, dass KI ein Bild nicht beschreiben kann, weil es die Intention des Bildes nicht kennt. Das ist korrekt, aber auch eine unbeteiligte Dritte kennt die Intention des Bildes nicht. Ich müsste es also so oder so mitteilen.
Implizit wird häufig mitgedacht, dass wenn die Aufgabe nicht durch eine Software erledigt wird, es ein Mensch tun würde. Das ist leider falsch: Bei vielen Dingen ist es schlicht so, dass es entweder die Software tut oder keiner. Dann wird das PDF nicht getaggt, das Video nicht untertitelt, der Text nicht verständlich gemacht. Meines Erachtens ist eine zu 80 Prozent adequate Bildbeschreibung besser als gar keine.
Der Gedanke, dass KI nicht kreativ sein kann mag heute richtig sein. Allerdings sind die meisten Aufgaben, die wir täglich tun relativ unkreativ.
Im Endeffekt geht es darum, dass KI uns nervige Aufgaben abnehmen kann. Dann haben wir mehr Zeit darüber nachzudenken, was KI alles nicht kann.
Eine weitere falsche Idee ist, dass weil KI nicht alles richtig machen kann sie am besten gar nichts tun sollte. Weil ja Menschen immer alles richtig machen.
Weiterhin scheint die Furcht zu herrschen – oder die unausgesprochene Idee – das wenn wir KI vieles machen lassen sie am Ende alles machen soll. Die Gefahr besteht durchaus, sie besteht aber auch bei vielen anderen Aspekten. Es macht keinen Sinn, über ungelegte Eier zu sprechen. Ich kenne keinen Profi, der behauptet, KI könnte in absehbarer Zeit eine Applikation vollständig ohne menschliche Hilfe barrierefrei machen, alle Inhalte ohne Fehler in verständliche oder Gebärdensprache übersetzen oder vollkommen fehlerfreie Bild-Beschreibungen erstellen. Aber KI kann genau jetzt dabei helfen, dass vieles besser, schneller und einfacher gemacht werden kann. Es wäre fahrlässig zu behaupten, KI könnte uns in absehbarer Zeit alles abnehmen. Es wäre aber dumm, die Möglichkeiten nicht zu nutzen, welche die Tools uns heute schon bieten.
Was ich bei den Barrierefreiheits-Profis häufig beobachte ist eine lineare Fortschreibung des Ist-Zustands. Die Zukunft ist das, was wir jetzt haben, nur ein wenig besser. Sie können sich nicht vorstellen, dass es Disruption gibt, die etwas schlagartig viel besser machen kann. Deswegen setzen sie liber darauf, das Altbewährte solange wie möglich fortzuführen.
Auch können sich viele Leute nicht vorstellen, dass Prozesse sich ändern können. Man kann Texte von vorneherein so optimieren, dass sie fehlerfreier automatisch übersetzt werden können. Ebenso kann man sich gut vorstellen, dass künftige Websites und Dokumente so erstellt werden, dass sie besser automatisch barrierefrei gemacht werden können.