ChatGPT und Co. – das Potential der Künstlichen Intelligenz für digitale Barrierefreiheit


„Cool, was KI alles kann“ und „Bor, die kann ja echt nix“ sind zwei Aussagen, die man vor allem im Zusammenhang mit ChatGPT in letzter Zeit hört. Letztere Aussage hört man vor allem in Deutschland. Wenn irgendwo der Wurm drin ist, jemand aus Deutschland wird ihn garantiert finden. Da wundert es nicht, dass viele Unternehmende und Forschende dem Land den Rücken kehren.
Ich meinerseits bin begeistert nicht nur von dem, was die Technik schon kann, sondern vor allem von dem Potential, das darin steckt. Und es stimmt mich traurig, dass wir trotz des enormen geistigen und unternehmerischen Potentials in Deutschland und der EU nichts Vergleichbares zustande bringen. Einige der größten Entwicklungen der letzten Jahre wie das MP3-Format und viel Grundlagen-Forschung kam aus Deutschland/der EU und Andere machen sie nutzbar. Aber lassen wir das. Ich möchte mich heute mit dem Potential der KI für die digitale Barrierefreiheit beschäftigen.
Es ist legitim, auf Lücken und Probleme hinzuweisen, ebenso legitim ist es, auf Potenziale hinzuweisen. Die jungen Leute müssen sich nicht um digitale Barrierefreiheit kümmern, weil sie sie oft nicht brauchen und es viele andere Themen gibt, wo sie sich mit ihren Ideen einbringen können. Wenn sie ständig hören, dass KI in der digitalen Barrierefreiheit nichts bewirkt, werden sie sich ein anderes Thema suchen.

Möglichkeiten der KI für die Barrierefreiheit und Kritik

Ich rede hier nicht unbedingt über die Dinge, die KI heute schon kann, vor allem nicht einwandfrei, sondern über das Potenzial, welches sie meines Erachtens in absehbarer Zeit haben könnte.
Was ChatGPT und andere generative Technologien beherrschen ist die Komposition bestehenden Wissens. Man findet alles, was eine Google-Suche auch bringen würde, allerdings in der Regel kompakter als die Wikipedia. Man kann also Antworten auf Fragen bekommen – eine enorme Erleichterung für Menschen, welche nicht über ausgefeilte Recherche-Fähigkeiten oder Zugang zu Datenbanken verfügen. Also die große Mehrheit der Menschheit. Die Wikipedia mag alles Mögliche sein, aber für viele Menschen ist sie sprachlich zu kompliziert.
Es ist richtig, das ChatGPT auch falsche Antworten produziert. Ich habe zum Beispiel nach Studien zur Barrierefreiheit im Finance Bereich gefragt. ChatGPT hat mir fünf Studien genannt, von denen 4 über Google nicht auffindbar waren, die es also wahrscheinlich nicht gibt. Aber auch andere Menschen und Google fördern falsche Antworten zu anderen Themen zutage. Die Frage ist, ob man die Qualität einer Anwendung völlig daran messen möchte, welche Fragen man ihr gezielt stellt, um sie aufs Glatteis zu führen.
An dieser Stelle möchte ich ein paar der Kritikpunkte aufgreifen, die ich gehört habe.
Es wird gesagt, KI könne Bilder nicht adäquat beschreiben, weil es die Intention des Bereit-Stellenden nicht kenne. Das ist korrekt, aber 1. würde das ein anderer unbeteiligter Mensch auch nicht wissen und 2. besteht ja das Interessante an ChatGPT, dass man Rückfragen stellen kann, kann ich bei einem Menschen auch und er wird wahrscheinlich nicht antworten. Die KI ist geduldig und variiert ihre Antworten, viele Menschen sind das nicht.
Das nächste Argument ist der Bias der Maschine. Natürlich kann man auch durch Software diskriminiert werden, wenn hier nur Diskriminierung reproduziert wird. Aber auch hier gilt: 1. Reproduziert die Software nur menschliche Vorurteile und 2. kann eine Maschine wirklich neutral sein, während ein Mensch immer Gefangener seiner Vorurteile ist. Wer an Anti-Bias-Training glaubt hat sich nie mit den Wirkungen von Training und verfestigten Annahmen beschäftigt. Wir sind solange tolerant, solange wir dem Anderen aus dem Weg gehen können.
Auch das Argument über die mangelhafte Qualität von Texten und Bild-Beschreibungen ist richtig. Was bisher öffentlich zugänglich ist, würde ich als nett bis unbrauchbar kategorisieren. Es gibt mittlerweile einige Anwendungen, die Szenen beschreiben oder einzelne Objekte auf Bildern erkennen können. Aber auch hier sehe ich großes Potential. Das Problem heute ist, dass Bilder einmal beschrieben werden und Blinde sich damit begnügen müssen. Einige wollen aber eine knappe, andere eine ausführliche Beschreibung. Bei komplexen Informationsgrafiken umfasst eine Beschreibung selten genau das, was man haben möchte. Mit einer KI kann ich aber Rückfragen stellen. Aber das kann ich doch auch bei einem Menschen tun? Richtig, aber einer KI wird das nicht langweilig oder ungeduldig (es sei denn, es ist Marvin aus dem Anhalter durch die Galaxis). Man möchte als blinde Person nicht immer vom Good Will oder der Laune einer sehenden Person abhängig sein und vielleicht gibt es auch Dinge, die man selbst einer Person nicht unbedingt zeigen möchte, der man vertraut. Eine entsprechend trainierte KI sollte in der Lage sein, komplexe Informationsgrafiken aus Studium und Beruf halbwegs adäquat zu beschreiben. Infografiken bestehen aus Strukturen, Mustern und Beschriftungen, die mit Machine Learning gut zu erfassen sein sollten, insbesondere wenn sie als Vektorgrafiken vorliegen, wenn die KI also auf den zugrunde liegenden Code zugreifen kann.
Nicht unmittelbar mit Behinderung zusammenhängt das Argument der begrenzten Intelligenz: Software aggregiert vor allem zugängliche Informationen. Sie könnte keinen Mozart oder Shakespeare produzieren. Auch das Argument ist korrekt. Allerdings sind 99,9 Prozent der Menschen ebenfalls nicht dazu in der Lage. Die Kreativität der Webdesigner:Innen besteht vor allem in der Frage, ob die Schrift 12 oder 13 Pixel groß sein soll und welche Farben wo hin gepackt werden. Nichts für ungut, aber wenn man ihnen ihre Fonts und die Farben wegnimmt, sehen alle Webseiten gerade auf Smartphones relativ gleich aus. Andere kreative Werke wie Popsongs oder Bücher bestehen aus wiederkehrenden und abgewandelten Mustern. Wir sind nicht so weit davon entfernt, dass eine KI einen Grisham oder einen Eminem-Song erstellt. In den meisten Werken steckt vielleicht zehn Prozent Kreativität, der Rest ist Routinearbeit wie das Ausformulieren von Szenen, das Entwickeln von Figuren oder Schauplätzen. Das heißt, ich könnte ein paar Ideen formulieren und der KI sagen, sie soll einen Roman im Stile von Agatha Christie dazu schreiben, dann noch ein bisschen Fein-Tuning und fertig ist der Bestseller. Utopisch? Vielleicht heute, aber in absehbarer Zukunft wahrscheinlich möglich.
Schon heute gibt es Programmier-Assistenten wie Copilot, die dem Vernehmen nach die Programmierung erleichtert und den Code verbessern. Mehr wollen wir aktuell gar nicht, wir brauchen Tools, die uns lästige oder überflüssige Arbeit abnehmen. Die Kritik erinnert ein wenig an die Urzeiten von Office, wo einige meinten, Typographen können Dokumente besser gestalten und Excel würde sich ständig verrechnen.
Automatiserte Tests auf digitale Barrierefreiheit sind möglich. Entgegen landläufiger Ansicht ist Barrierefreiheit nicht von der Test-Automatisierung ausgeschlossen. Das gängige Tools bisher nicht sonderlich gut funktionieren, liegt daran, dass sich kaum einer der großen Player in diesem Bereich betätigt. Bild-Beschreibung mit einem Bild abgleichen, Links als sinnvoll erkennen, Formular-Beschriftungen analysieren – das alles sind Dinge, die sich automatisieren lassen.
Das General-Argument sind die bisher sehr begrenzten Fähigkeiten der KI. Das ist nun ziemlicher Unsinn. Es ist so, als ob ich einen Dreijährigen kritisiere, weil er noch nicht flüssig sprechen oder schreiben kann. Ja, die Möglichkeiten sind aktuell begrenzt. Aber wir sind nach wie vor am Anfang der Entwicklung. Maschinelles Lernen zeichnet sich eben dadurch aus, dass sie immer besser werden kann.
Menschen können besser Texte übersetzen bzw. vereinfachen oder Bilder beschreiben. Einige Menschen, nicht alle. Es gibt gute von KI übersetzte Texte oder Bild-Beschreibungen und es gibt sauschlechte von Menschen erstellte Übersetzungen oder Bild-Beschreibungen. Es stimmt eben nicht, dass ein Mensch automatisch alles besser macht. Ich habe so viele schlechte Übersetzungen aus dem Englischen gesehen, dass sich DeepL jederzeit den Vorzug geben würde. Bei Leichter Sprache ist das noch evidenter: Es gibt da draußen jede Menge Übersetzer:Innen mit mäßiger bis schlechter Qualität. Die WCAG wird bald 25 Jahre alt und wir sprechen wie am ersten Tag immer noch über Bild-Beschreibungen und semantisches HTML, die menschliche Intelligenz scheint gescheitert, vielleicht sollten wir der KI eine Chance geben.
Ich finde den Vergleich einer KI mit einem Experten weniger hilfreich. Die KI sollte vielmehr mit einem Durchschnitts-Menschen verglichen werden und dann schneidet sie häufig besser ab. Ein Experte wird, heute zumindest, oft bessere Ergebnisse erzielen. M.E. ist es aber auch hier nur eine Frage der Zeit, bis speziell trainierte Anwendungen stehen, die mit Experten mithalten können. Das ist durchaus sinnvoll: Die Spezialisierung hat auch innerhalb der Professionen immer weiter zugenommen. Kein Mensch ist heute in der Lage, selbst innerhalb eines relativ kleinen Spezialgebietes alles zu überblicken. Ein Experten-System könnte zum Beispiel für eine Wissenschaftlerin oder Ärztin sehr hilfreich sein. Oder – meine A11Y-Bodies werden mich dafür steinigen, Fragen zur digitalen Barrierefreiheit kompetent beantworten. Falls es jemand noch nicht mitbekommen hat – es gibt einen Mangel an Fachkräften, der in absehbarer Zeit nicht behoben werden kann.
Auch hier sehe ich Vorteile für die digitale Barrierefreiheit. Ich empfehle vor allem Neulingen im Thema, zumindest zwei Artikel von verschiedenen Quellen zu einem Thema zu lesen, weil man in der Szene zu teils schwierigen Einschätzungen und Rechthaberei neigt. Die KI könnte die Essenz mehrerer Artikel aggregieren und damit die Mühe abnehmen, viele verschiedene Meinungen abzugleichen.

Technik-Konservatismus in der Szene

Natürlich ist Kritik immer legitim und hilft uns auch weiter. Mir gefällt nur diese etwas arrogante Art nicht, in welcher Kritik in DE häufig angebracht wird. Das verstellt oft den Blick auf das, was möglich ist. Telefonieren in der Anfangszeit des Telefons – sauschlechte Qualität, Internet in Modem-Zeiten zu langsam, bei Pferden musste man nicht kurbeln etc. pp. Wenn man ebenso kritisch an grüne Technologien wie Dämm-Materialien, Solarzellen oder Wind-Anlagen gehen würde, ginge gar nichts mehr voran.
Richtig ist, dass unter KI allgemein und speziell bei KI und Barrierefreiheit viel Schrott verkauft wird. Das sind zum Beispiel die sogenannten Overlays oder Toolbars, also Tools, die automatische Barrierefreiheit versprechen, aber in Wirklichkeit die Barrierefreiheit verschlechtern. Automatisch erzeugte Bildbeschreibungen haben bisher enttäuscht. Und auch bei seriösen Organisationen muss man den gesunden Menschenverstand einschalten. Die US-Amerikaner drehen beim Marketing gerne mal drei Stufen höher: Da ist von „revolution“ die Rede, auch wenn es sich nur um kleine Verbesserungen handelt. Andererseits scheint es mir auch in der Szene Leute zu geben, die glauben, alles solle wie vor zehn Jahren manuell getestet werden, als ob das noch state of the art wäre. Test-Automatisierung ist eines der großen Themen im Software-Testing und wir haben diesen Zug verpasst. Wenn wir digitale Barrierefreiheit in dem Tempo bearbeiten wie in den letzten 20 Jahren, dann werden wir nicht wesentlich weiter kommen als heute. Die Deutschen sind hier besonders kritisch, aber auch die internationale Szene scheint sich im Großen und Ganzen der Entwicklung verschließen zu wollen. Die Grenze zwischen Technik-Kritik zum Technik-Konservatismus ist m.e. bei vielen Leuten überschritten. Ziel sollte es nicht sein, sich der technischen Entwicklung zu verschließen, sondern Defizite aufzuzeigen und sie weiter zu verbessern.
Mir scheint auch, dass hier der demografische Wandel zuschlägt. Viele Pioniere kommen jetzt in ein Alter, wo sie – so scheint es mir – der technischen Entwicklung eher negativ gegenüberstehen. Wenn man es 20 Jahre lang so gemacht hat, dann gibt es keinen Anlass, das zu ändern.
Wie bei vielen Entwicklungen gibt es auch bei KI gute und schlechte Seiten. Das WWW hat sowohl Minderheiten als auch Rechte und Verschwörungs-Idioten lauter gemacht. KI hat viel Potenzial für Überwachung und Manipulation. Sie kann aber auch den Zugang für benachteiligte Menschen erleichtern, indem sie zum Beispiel das Coding einfacher Lösungen vereinfacht oder Texte auf verschiedenen Stufen verständlicher macht, in dem sie Texte übersetzt oder orthografische Fehler korrigiert. Das sind Probleme, welche viele von uns nicht kennen, aber für viele andere Menschen hilfreich oder gar existenziell sind.
Ich träume von einem Tool, dass Menschen mit technischen Problemen hilft, digitale Anwendungen zu nutzen. Es könnte den Aufbau einer Anwendung analysieren und der Nutzerin dabei helfen, Aufgaben zu erledigen, indem sie schrittweise durch die jeweilige Aufgabe durchgeführt wird.
Generell glaube ich nach wie vor an das Potenzial sprach-basierter Assistenzen. Wie oben gesagt, kann ChatGPT nicht nur Infos aus der Wikipedia vorlesen – wenig hilfreich für Personen mit geringer Text-Verständnis-Erfahrung – sondern Informationen verständlich zusammenfassen und Rückfragen beantworten. Das wäre ein interessantes Tool für funktionale Analphabeten oder für die Nachhilfe.
Ein weiteres Thema ist Speech to text. Speech to text ist eine relativ einfache Methode, um Computer zu steuern. Allerdings ist es für viele Menschen aufgrund von Ausspracheproblemen nicht möglich, diese Methode zu nutzen. Durch Machine Learning könnte die Software allmählich auch Stimmen verstehen, die weniger gut artikuliert sind.

Abschließende Gedanken

Die KI ist nach der Evolutionstheorie die neue große Kränkung vor allem der Kopf-Menschen. Da sitzen wir stundenlang an einem Text oder einem Code und eine Software – auch von Menschen entwickelt – kann etwas Vergleichbares in wenigen Sekunden generieren und vielleicht sogar besser. Jeder denkt, dass die KI viele Jobs überflüssig machen könnte, nur die eigene Arbeit nicht. Aber ich behaupte mal, dass sich jede Arbeit, die am Computer gemacht wird, zumindest ein Stück weit von KI erledigen lässt. Die KI kann aber nicht auf unsere Kinder aufpassen, unsere Eltern pflegen, unsere Wohnungen bauen oder unseren Müll wegbringen. Das sind Leute, für die wir wenig Respekt haben – und auch wenig Mitleid, wenn ihre Arbeit wie bei den Bergarbeitern abgeschafft oder in den Fabriken von Maschinen übernommen wurden. Das Ende vieler kleiner Bauernhöfe quitieren wir mit einem Achselzucken, bevor wir uns dem nächsten Nonsens von Elon Musk zuwenden. Aber unsere Arbeit muss unbedingt erhalten bleiben, wir sind schließlich kreativ. Es erinnert ein wenig an Debatten, die zu Beginn der industriellen Produktion stattgefunden haben mögen. Damals war die Herstellung von Gegenständen, Kleidung oder Möbel ein echtes Handwerk, so wie es heute die Kultur ist. Das Handwerk gibt es nach wie vor, nur dass es sich auf spezielle Bereiche konzentriert. Ebenso wird die Massenproduktion aus Hollywood von KI unterstützt oder komplett übernommen. Übrig bleiben die wenigen wirklich fähigen Personen, die außergewöhnliche Dinge machen. Man kann dagegen protestieren oder es blöd finden, aber damit wird man es eben so wenig verhindern wie die Industrieproduktion von Alltags-Gegenständen.
Naturgemäß sind die meisten von uns Informations-Profis – das bringt die Tätigkeit mit sich. Mir fehlt aber die Perspektive derjenigen die das nicht sind in den hochnäsigen Beiträgen einiger Zeitgenossen. Es fehlt das Verständnis für die Herausforderungen jener, die mit der Informationsflut nicht umgehen können.
Man sollte den Begriff Künstliche Intelligenz als das nehmen, was er aussagt: Maschinelle Intelligenz ungleich menschliche Intelligenz. Der englische Begriff Intelligence ist nicht identisch mit dem deutschen Begriff Intelligenz. Er meint unter anderem Datenverarbeitung. KI wird auf absehbare Zeit keine menschliche Intelligenz oder gar Arbeitskraft vollständig ersetzen und darum geht es auch nicht. Ebensowenig passen die Begriffe lernen, verstehen und wissen bei Computern, wenn damit das Gleiche ausgedrückt werden soll, was bei Wesen mit einem biologischen Gehirn stattfindet. Mangels besserer Begriffe kann man diese Konzepte meines Erachtens aber verwenden und sollte seine Kritik nicht daran aufhängen. Nur nebenbei sei erwähnt, dass es für den Begriff Intelligenz keine allgemein akzeptierte Definition gibt.
Die Argumentation gegen KI in der Barrierefreiheit geht von einigen – aus meiner Sicht falschen Prämissen aus:

  • Experten können es im Großen und Ganzen besser – das Argument habe ich oben angesprochen. Experten neigen dazu, kleine Divas zu sein und können ziemlich viel Unsinn reden. Fragen Sie drei Experten und Sie erhalten sechs Meinungen (und alle können richtig sein). Abgesehen davon habe ich schon genug Unsinn von Barrierefreiheits-Expert:Innen gehört, um damit ein weiteres Buch zu füllen, leider mache ich keine Comics.
  • Weiterhin ist es Quatsch, den Gegensatz von KI gegen Mensch aufzumachen. Ich kenne keinen Menschen, der Spaß an der Erstellung von Video-Transkripten hat. Es gibt nicht genug Arbeitskraft, um alle Dokumente zu taggen, alle Videos zu beschreiben oder alle Inhalte in Leichte Sprache zu übersetzen. Die Alternative heißt nicht KI oder Mensch, sondern in vielen Fällen KI oder nichts. Wir haben nicht nur einen Mangel an Fachkräften, wir haben einen Mangel an Arbeitskraft, An Arbeitszeit und an finanziellen Ressourcen.
  • Ein Argument ist, dass es ohne Beratung/Erklärung nicht geht. Das Argument ist richtig, aber Beratung muss nicht durch einen Menschen erfolgen. Ich glaube sogar, dass die Hemmungen, mit einem Bot zu chatten geringer sind als mit einem Menschen. Einige – nicht alle – Personen sind recht schwierig im persönlichen Umgang oder erklären Dinge so kompliziert, dass man sie nicht versteht. Sie kennen sicher die Situation, dass Sie gerne nachfragen würden, es aber bei Ihrem Gegenüber aus irgendeinem Grund nicht tun wollen. Einen Chatbot können Sie ausquetschen und er wird Ihnen nicht mit Überheblichkeit antworten. Die Prämisse ist falsch, dass nur ein Mensch korrekt und adäquat antworten kann, wenn die Software entsprechend trainiert wurde, kann sie das ebensogut oder besser. Ich zumindest hätte kein Problem, mit einer Maschine zu quatschen, ihr ist auch egal, ob man die Kamera aktiv hat oder ob man im Schlabberpulli vor ihr sitzt.

Verstehen Sie mich nicht falsch: KI wird sicher nicht alle Probleme der Menschheit oder der Barrierefreiheit lösen, ebensowenig wie es das WWW, die Gen- oder Nanotechnik oder die Robotik getan haben bzw. tun werden. Alle diese Technologien unterlagen einem gewissen Hype. Aber diese Technologien haben auch tatsächlich Vorteile gebracht und es geht vor allem darum, diese Vorteile den Menschen und nicht milliardenschweren Konzernen zu bringen, damit sie noch ein paar Euro mehr verdienen können. Wenn wir in der EU das Potenzial dieser Technik nicht bergen, dann werden Andere es an unserer Stelle tun und dann werden sie bestimmen, was damit passiert, so wie es heute bei den meisten Web-Plattformen der Fall ist. Technik und Automatisierung werden nicht alle Probleme der Barrierefreiheit lösen, aber sie kann einen großen Teil der Probleme absehbar lösen.
Die Antwort ist wie so oft Open Source, niemand kann ein Interesse daran haben, dass ein paar Groß-Konzerne diese Technologie kontrollieren und nach Gutdünken nutzen. Aktuell tut sich hier viel und wir können darauf hoffen, dass die OpenSource-Gemeinde hier große Dinge leisten wird.

Zum Weiterlesen