Herzlich willkommen zum Vortrag Linde und Künstliche Intelligenz.
Vielen Dank zunächst einmal, dass ich hier die Gelegenheit habe, sprechen zu dürfen. Mein Name ist Domingos de Oliveira. Ich bin von Geburt an blind und habe lediglich einen kleinen Sehrest. Seit einigen Jahren arbeite ich im Bereich digitale Barrierefreiheit – das heißt, ich berate, gebe Schulungen, teste Anwendungen und Systeme. Anfangs habe ich lange freiberuflich gearbeitet, mittlerweile bin ich bei der adesso fest angestellt. Dadurch habe ich über die Jahre einen sehr guten Zugang zu Technologie gewonnen – sowohl aus der Perspektive eines Experten für digitale Barrierefreiheit als auch aus der persönlichen Sicht einer betroffenen Person.
Natürlich sind die Fortschritte in diesem Bereich für mich besonders spannend. Zum einen, weil ich sie fachlich begleite, zum anderen, weil ich selbst täglich auf Hilfsmittel angewiesen bin. Deshalb verfolge ich mit großer Neugier, welche Entwicklungen es gibt und welche Verbesserungen sie mir sowohl im Arbeits- als auch im Privatleben bringen können. Genau aus diesem Grund freue ich mich sehr, heute über dieses Thema sprechen zu dürfen.
Ich habe drei Themenblöcke mitgebracht:
1. Was heute bereits möglich ist.
2. Welche Probleme und Herausforderungen es derzeit noch gibt – insbesondere mit Blick auf Entwicklungen im letzten Jahr.
3. Was wir tun können, um die Situation weiter zu verbessern.
Was heute funktioniert
Beginnen möchte ich mit einigen Beispielen dafür, was heute schon recht gut funktioniert und von vielen blinden Menschen bereits regelmäßig genutzt wird.
Ein gutes Beispiel ist die automatische Generierung von Bildbeschreibungen. Diese Technologie gibt es zwar schon länger – Facebook und Instagram haben das schon früh eingeführt, ebenso Microsoft Office oder Chrome. Lange Zeit waren die Ergebnisse jedoch eher mittelmäßig bis schlichtweg unbrauchbar. Man konnte sie niemandem ernsthaft empfehlen.
Inzwischen hat sich das deutlich verbessert. Heute ermöglichen verschiedene Systeme – etwa ChatGPT oder andere Modelle – das Hochladen von Bildern. Diese können dann auf Wunsch ausführlich beschrieben werden, oft deutlich detaillierter als früher. Besonders attraktiv finde ich auch die Möglichkeit, Rückfragen zu stellen. Über die Chatfunktion lassen sich gezielt Informationen nachfragen, sodass man nicht mehr auf eine starre, vorgegebene Bildbeschreibung beschränkt ist.
Anwendungsbereiche dafür gibt es viele:
• Im privaten Alltag, etwa über Social Media oder Messenger-Dienste wie WhatsApp, wenn man Bilder zugeschickt bekommt und nicht weiß, was darauf zu sehen ist.
• Im beruflichen Umfeld, wenn man Infografiken, Präsentationen oder Diagramme erhält. Zwar sind viele Kolleginnen und Kollegen bereit, Inhalte zu beschreiben – aber oft nicht in der Detailtiefe, die man selbst bräuchte, und Rückfragen sind nicht immer willkommen. Gerade hier eröffnet die neue Technologie eine große Chance, selbstständig, unabhängig und flexibel an Informationen zu gelangen.
Herausforderungen
Kommen wir zu einigen Problemen und Herausforderungen.
Ein zentrales Thema ist der Umgang mit Daten. Bei vielen KI-Anwendungen wissen wir nicht genau, was mit den Informationen passiert, die wir eingeben. Wir wissen zum Beispiel, dass Chats zum Teil dafür genutzt werden, Modelle weiter zu trainieren. Wahrscheinlich werden auch Bilder hochgeladen und gespeichert – wo genau und wie lange, bleibt unklar. Werden diese Daten dauerhaft gesichert? Werden sie personalisiert ausgewertet? All das ist nicht transparent.
Das wird besonders heikel, wenn es um sensible Inhalte geht – etwa private Fotos, Bilder von Kindern oder sehr persönliche Informationen. Ein Beispiel: Möchte ich wirklich, dass ein KI-System erfährt, ob ich gerade einen positiven Corona-Test habe? Oder welche privaten Bilder ich anschaue? Diese Fragen zeigen, wie groß das Problem fehlender Datensouveränität ist.
Ein zweites Problem betrifft die Zuverlässigkeit der Antworten. KI-Systeme neigen dazu, Ergebnisse so zu formulieren, als wären sie zweifelsfrei korrekt – auch dann, wenn sie fehlerhaft sind. Für sehende Nutzerinnen und Nutzer mag das leichter überprüfbar sein. Für blinde Menschen ist das schwieriger: Ich kann nicht ohne weiteres feststellen, ob eine Information korrekt, komplett falsch oder irgendwo dazwischen liegt.
Das ist riskant. Wenn ich wüsste, dass Informationen nur zu 15 % zuverlässig sind, würde ich mich nicht darauf verlassen. Aber wenn Antworten nach 80–90 % Korrektheit klingen, neige ich eher dazu, sie zu glauben – und das kann zu falschen Schlüssen führen.
Ein weiteres Beispiel, das mittlerweile technisch recht gut funktioniert, ist die Beschreibung von Umgebungen. Das gibt es schon seit einigen Jahren: Man macht ein Foto, und wenige Sekunden später erhält man eine Beschreibung. Nach dem, was ich beobachtet habe, war das bisher meist recht brauchbar.
Neu ist jedoch, dass solche Beschreibungen inzwischen in Echtzeit möglich sind. Ein aktuelles Beispiel ist die Kooperation von Meta mit Ray-Ban: Gemeinsam haben sie eine XR-Brille entwickelt, die während des Tragens Informationen über die Umgebung einblendet. Sie ist relativ erschwinglich und wird in den USA schon von vielen blinden Menschen genutzt – sei es beim Spazierengehen oder bei alltäglichen Aktivitäten.
Das Potenzial ist groß: Gerade wer viel allein unterwegs ist, kann davon enorm profitieren. Während sehende Freunde oder Begleiter Beschreibungen liefern können, fehlt diese Unterstützung, wenn man alleine unterwegs ist. Eine Brille, die das übernimmt, wäre daher eine wertvolle Hilfe.
Aber auch hier bleibt die Frage: Stimmen die Informationen? Ich habe beispielsweise von einer Testerin gelesen, dass die Brille ihr sagte, sie befinde sich auf der Straße – obwohl sie tatsächlich auf dem Bürgersteig war. Solche Fehler können im Alltag nicht nur verwirren, sondern im schlimmsten Fall gefährlich sein.
Natürlich weiß man nicht genau, warum in solchen Fällen Fehler passieren. Vermutlich liegt es daran, dass die KI vor allem mit US-amerikanischen Bilddaten trainiert wurde – dort sehen Bürgersteige und Straßen teilweise anders aus als bei uns. Das kann zu Missverständnissen führen, die im schlimmsten Fall sogar lebensgefährlich sein können, wenn man sich zu stark auf solche Informationen verlässt.
Ein weiteres Problem ist die Verzögerung bei der Verarbeitung. Die Brille selbst hat nur begrenzte Rechenleistung, um leicht und tragbar zu bleiben. Deshalb werden die Bilddaten zunächst ins Internet übertragen, dort verarbeitet und anschließend zurückgeschickt. Auch wenn das oft nur wenige Sekunden dauert, kann das im Alltag kritisch sein.
Stellen wir uns vor: Ich gehe die Straße entlang, trete unbemerkt auf die Fahrbahn – und die Brille informiert mich erst drei Sekunden später darüber. Dann kann es im Ernstfall schon zu spät sein. Gleiches gilt für Hindernisse: Wenn etwas plötzlich im Weg auftaucht, brauche ich die Information sofort, nicht erst mit Verzögerung.
Natürlich ist das immer noch besser als gar keine Unterstützung. Mit Übung lässt sich vielleicht auch ein Umgang mit solchen Ungenauigkeiten finden. Aber es zeigt, dass wir hier noch weit von einer wirklich verlässlichen Lösung entfernt sind.
Dazu kommt: Ohne Internetverbindung funktioniert die Brille gar nicht. Wenn ich in ein Funkloch komme oder die Verbindung für ein paar Sekunden weg ist, bleibt nur eine schicke Sonnenbrille zurück – aber keine praktische Hilfe.
Ein weiterer spannender Bereich sind automatische Videobeschreibungen. Schon länger gibt es automatische Transkriptionen, also Textfassungen von Audioinhalten oder automatisch erzeugte Untertitel. Mittlerweile wird jedoch auch daran gearbeitet, ganze Videos automatisch zu beschreiben – also Bildinhalte in Echtzeit zu erfassen und sprachlich wiederzugeben.
Ein weiterer spannender Bereich ist die automatisierte Audiodeskription. Mit Tools wie Pixie Board oder Seeing AI ist es inzwischen möglich, zumindest für kurze Clips automatisch Audiodeskriptionen zu erstellen. Meines Wissens arbeiten auch große Anbieter und Distributoren daran, solche Funktionen auszubauen – nicht zuletzt, weil Audiodeskriptionen gesetzlich vorgeschrieben sind und gleichzeitig einen erheblichen Kostenfaktor darstellen.
Natürlich sind die automatisch erzeugten Beschreibungen derzeit noch weit davon entfernt, wirklich präzise zu sein – oft stimmen sie vielleicht zu 50 Prozent. Aber gerade für private Videos, bei denen man wie bei Fotos sonst keine Ahnung hat, was eigentlich gezeigt wird, ist das eine wertvolle Unterstützung.
Auch im Bereich Screenreader tut sich einiges. So haben einige Systeme bereits zusätzliche KI-Funktionen integriert, bei NVDA geschieht das oft über freiwillig entwickelte Erweiterungen. Hier steckt großes Potenzial: Man könnte sich vorstellen, dass KI in Echtzeit die grafische Benutzeroberfläche beschreibt – also den Bildschirm „live“ erklärt. Das wäre besonders spannend für Situationen, in denen Programme oder Websites noch nicht barrierefrei gestaltet sind.
Ähnliche Entwicklungen gibt es auch bei Hilfsmitteln wie Blindenstöcken. In den USA wird bereits an smarten Stöcken gearbeitet, die mit KI-Unterstützung Hindernisse erkennen können. Wie gut das in der Praxis funktioniert, ist noch offen – die Erfahrungsberichte sind gemischt. Aber grundsätzlich spricht nichts dagegen, dass solche Technologien künftig in den Alltag integriert werden können.
Und man darf nicht vergessen: KI eröffnet auch jenseits von Barrierefreiheit neue kreative Möglichkeiten. Viele blinde Menschen nutzen zum Beispiel Plattformen wie Suno AI, um Musik zu machen. Solche Interfaces ermöglichen eine kreative Arbeit, die früher kaum denkbar war – gerade weil Musiksoftware traditionell sehr komplex und oft unzugänglich ist. Hier entstehen ganz neue Chancen, sich künstlerisch auszudrücken.
Mein Zwischenfazit:
Die Early Adopter – wie so oft auch in der blinden Community – sind schon fleißig dabei, die neuen Möglichkeiten auszuprobieren, zu testen und die Grenzen der Technik auszuloten. Nach meiner Einschätzung erleben wir mit KI tatsächlich den größten Innovationsschub für assistive Technologien seit dem Aufkommen des Smartphones und der ersten Screenreader vor etwa 15 Jahren.
Natürlich gab es seitdem viele Verbesserungen, aber das, was die generativen KI-Systeme gerade anstoßen, hat noch einmal eine ganz andere Dynamik. Wir stehen im Grunde erst am Anfang – das sind die ersten vorsichtigen Kinderschritte. Wie schnell und in welche Richtung sich die Entwicklung bewegen wird, ist derzeit überhaupt nicht absehbar. Klar ist nur: Es wird besser, zuverlässiger und vielseitiger werden – die Frage ist lediglich, wie schnell.
Probleme der Technik
Schauen wir nun auf die Herausforderungen und die Frage, was wir tun können, um die Situation zu verbessern.
Ein zentrales Problem ist der wachsende Unterschied zwischen technisch fitten und technisch weniger versierten blinden Menschen. Manche verweigern sich der Technik bewusst – und das ist völlig in Ordnung. Wer sagt „ich brauche das nicht“ oder „ich will das nicht“, trifft eine persönliche Entscheidung, die man respektieren sollte.
Problematisch wird es dort, wo Menschen die Technik eigentlich nutzen möchten, sich aber nicht trauen – sei es aus Angst vor Datenschutzrisiken oder weil sie schlicht nicht wissen, wie sie anfangen sollen. Hier öffnet sich eine Lücke: Während Early Adopters die Möglichkeiten von KI sehr aktiv erkunden und nutzen, bleiben andere zurück. Das führt zu einem wachsenden Gap – sowohl im Berufsleben, wo digitale Kompetenzen immer wichtiger werden, als auch im privaten Alltag, wo KI zunehmend praktische Vorteile bietet.
Ein zweiter Punkt ist der Datenschutz. Wie schon mehrfach erwähnt, laufen die großen Basismodelle in der Cloud. Das bedeutet: Alle Daten, die ich eingebe – seien es Texte, Fotos oder sogar sensible Inhalte wie Krankendaten – werden an externe Server geschickt. Was genau dort mit diesen Daten geschieht, ist unklar. Für manche mag das keine große Rolle spielen, andere möchten solche Informationen aber keinesfalls aus der Hand geben. Gerade für Menschen, die mit sensiblen Dokumenten oder sehr persönlichen Fotos arbeiten, ist das eine große Hürde. Deshalb wäre es enorm wichtig, transparent zu machen, was mit den Daten passiert – und Alternativen zu entwickeln, die mehr Kontrolle und Datenschutz bieten.
Ein drittes Thema ist der Bias in den Daten. Die großen Sprach- und Bildmodelle wurden nicht für die Bedürfnisse blinder Menschen entwickelt. Sie wurden auf riesigen Datenmengen trainiert, die ganz andere Zwecke hatten. Dass dabei zufällig auch Funktionen entstehen, die für blinde Menschen nützlich sind – etwa Bildbeschreibungen – ist eher ein Nebenprodukt.
Das Problem: Diese Beschreibungen entsprechen nicht unbedingt den Anforderungen blinder Nutzerinnen und Nutzer. Ein Beispiel: Ein Online-Shop braucht für sehende Kunden eine Bildbeschreibung wie „weißer Sneaker mit roter Sohle“. Eine blinde Person hingegen braucht zuerst die Information, dass es sich um einen Schuh handelt. Ähnlich verhält es sich mit Zuschreibungen bei Personen: Begriffe wie „jung“ oder „alt“ wirken zunächst harmlos, sind aber subjektiv und potenziell fehleranfällig.
Diese Unterschiede zeigen, dass wir über Standards nachdenken müssen: Wie sieht eigentlich eine gute, barrierefreie Bild- oder Videobeschreibung aus? Und wie können wir sicherstellen, dass KI-Systeme sich daran orientieren, statt zufällige, verzerrte Informationen auszugeben?
Ein weiterer schwieriger Aspekt ist die Frage: Wer entscheidet eigentlich, was zutrifft? Wenn eine KI zum Beispiel eine Person als „jung“ oder „alt“ beschreibt, ist das eine sehr subjektive Zuschreibung. Ähnliche Kategorien oder Bewertungen möchte man vielleicht gar nicht von einer Maschine bekommen – oder man möchte zumindest selbst entscheiden, ob man diese Einschätzung teilt oder nicht.
Das Grundproblem bleibt: Blinde Menschen können die Korrektheit von Informationen nicht eigenständig überprüfen. Man kann eine Beschreibung zwar auf Plausibilität hin anhören, aber nicht sicher feststellen, ob sie stimmt oder nicht. Damit fehlt eine wichtige Grundlage für das sogenannte Supervised Learning, bei dem Menschen die KI durch Feedback trainieren. Denn wenn ich gar nicht weiß, ob eine Bildbeschreibung korrekt ist, kann ich der KI auch kein zuverlässiges Feedback geben.
Damit verbunden ist immer die Gefahr, dass man sich auf falsche oder halbrichtige Informationen verlässt – und daraus Handlungen ableitet, die problematisch sein können.
Ein weiteres Problem sehe ich in der Hilfsmittelbranche selbst. Häufig ist das Marketing für neue Produkte übertrieben oder schlicht nicht angemessen. Es wird viel versprochen, was in der Realität noch gar nicht funktioniert – oder nur sehr eingeschränkt. Das führt dazu, dass blinde Menschen falsche Erwartungen entwickeln und am Ende enttäuscht werden. Ich finde: Hier braucht es mehr Ehrlichkeit und Transparenz. Wenn Grenzen klar aufgezeigt werden, können Nutzerinnen und Nutzer selbstbestimmt entscheiden, ob sie ein Tool ausprobieren möchten.
Was tun?
Damit komme ich zum letzten Punkt: Was können wir tun?
Aus meiner Sicht ist es entscheidend, dass KI-Modelle auch spezifisch für die Bedarfe blinder Menschen trainiert werden. Es reicht nicht, große allgemeine Modelle zu nehmen und dann ein paar Zusatzfunktionen „aufzuflanschen“. Die Bedürfnisse sind zu speziell, als dass sie nebenbei miterledigt werden könnten.
Natürlich ist das eine Herausforderung: Wahrscheinlich gibt es für diesen Bereich nicht so viele Daten wie in anderen Anwendungsfeldern. Aber wenn wir langfristig wirklich hilfreiche Systeme entwickeln wollen, führt kein Weg daran vorbei, diese Bedarfe ernst zu nehmen und gezielt in die Entwicklung einzubeziehen.Ein weiterer wichtiger Punkt ist die Frage, wo die Modelle laufen.
Aus meiner Sicht sollten KI-Systeme so weit wie möglich lokal auf dem Endgerät – also auf dem Smartphone oder Computer der Nutzerinnen und Nutzer – betrieben werden. Das hätte zwei Vorteile: Zum einen verringern sich die Latenzen, weil keine Internetübertragung nötig ist. Zum anderen wird der Datenabfluss reduziert, da die Verarbeitung direkt auf dem Gerät erfolgt und man damit deutlich mehr Kontrolle über die eigenen Daten behält.
Ein Beispiel dafür ist Apple: Mit „Apple Intelligence“ gehen sie genau diesen Weg und verlagern viele KI-Funktionen auf das iPhone selbst. Natürlich ist die Rechenkapazität dort begrenzt, aber kleinere Modelle lassen sich schon heute lokal betreiben – und diese Entwicklung sollte weiter gefördert werden.
Darüber hinaus wäre es sehr hilfreich, wenn KI-Systeme ihre eigene Sicherheit einschätzen und kommunizieren könnten.
Wenn eine KI zum Beispiel sagt: „Mit 90 % Wahrscheinlichkeit ist das grün, mit 10 % könnte es auch blau sein“, dann kann ich als blinde Person viel besser damit umgehen. Ich weiß dann, wie hoch die Unsicherheit ist, und kann entscheiden, ob ich mich auf die Information verlasse, eine zweite Quelle befrage oder lieber eine sehende Person um Hilfe bitte. Diese Transparenz wäre ein großer Gewinn.
Und schließlich ist mir ein Punkt besonders wichtig: Schulungen und Trainings für Nutzerinnen und Nutzer.
KI ist kein Selbstläufer. Viele Menschen – auch blinde Menschen – haben Hemmungen, sich mit der Technik auseinanderzusetzen. Manchmal fehlt das Wissen, manchmal die Erfahrung, manchmal schlicht die Sicherheit im Umgang. Deshalb sollten gezielte Trainings angeboten werden, die zeigen, wie man KI sinnvoll und produktiv einsetzen kann. Das würde vielen helfen, herauszufinden, ob und wie diese Technologien für sie nützlich sind.