Avatare in der Gebärdensprache – ein Interview


Hier ist das Transkript zum oben eingebetteten Podcast. Alle Tippfehler und Ungenauigkeiten gehen auf mein Konto. Da wir beide Hörende und keine Experten für die Gehörlosen-Kultur und die Deutsche Gebärdensprache sind, bitte ich, eventuelle Ungenauigkeiten zu verzeihen. Ich spreche mit dem Geschäftsführer der Firma Charamel Alexander Stricker (AS) über Avatare in der Gebärdensprache.
DO: Herzlich willkommen zu einem neuen Podcast zur digitalen Barrierefreiheit. Heute habe ich wieder einen spannenden Gast dabei, nämlich den Herrn Alexander Stricker von der Firma Charamel. Erstmal herzlichen Dank, dass Sie sich heute die Zeit nehmen sich mit mir über das Thema Gebärdensprach-Avatare zu unterhalten.

AS: ja sehr gerne, freut mich auch

DO: bevor wir einsteigen, würden die Zuhörerinnen sehr gerne etwas über sie selbst wissen also: Wer sind sie, was haben sie gemacht und was macht die Firma Charamel.

Die Firma Charamel

AS: Mein Name ist Alexander Stricker. Ich bin einer der Geschäftsführer und Gründer der Charamel GmbH. Uns gibt’s mittlerweile seit 1999 und wir haben uns komplett der Softwareentwicklung von digitalen virtuellen Persönlichkeiten verschrieben. Damals kamen wir wirklich aus der Nische und haben eine Software-Lösung entwickelt, mit der es möglich war, virtuelle Figuren live zu animieren. Damals stand noch ein Schauspieler im Hintergrund. Mittlerweile läuft alles relativ Datenbank getrieben oder KI basiert.
Das Thema Gebärdensprache begleitet uns eigentlich schon seit 2003. Damals kam ein Geschäftspartner von uns der Ralf raule von der jomma GmbH, mit dem wir auch im Geberdensprach-Umfeld zusammenarbeiten, auf uns zu und hat gesagt: Können wir nicht einen Chatbot für gehörlose Menschen realisieren. Für uns stand zur Frage, warum muss das passieren, gehörlose Menschen können Doch lesen. Wir mussten uns eines Besseren belehren lassen und haben festgestellt, dass viele gehörlosen Menschen nicht unbedingt der Textsprache vollumfänglich mächtig sind. 2009 ging es dann wirklich in diese Richtung, dass wir gesagt haben, die Technologien sind weit entwickelt, wir können diese Basis nutzen und vielleicht auch im Bereich Gebärdensprache was zu realisieren. Daraus ist das ganze Thema der Forschung entstanden und da sind wir dem Jahr 2000 unterwegs und versuchen, hier Übersetzungstools zu realisieren, die Text in Gebärdensprache übersetzen.

Der Bedarf an Gebärdensprach-Inhalten und die Herausforderungen

DO: ja superinteressant. Sie haben die Frage teilweise schon beantwortet, warum wir Gebärdensprache brauchen. Aber haben Sie auch einen Eindruck davon wie hoch der Bedarf an Gebärdensprache ist ?

AS: ja, es ist aus unserer Sicht ein sehr hoher Bedarf. Zum einen gibt’s natürlich Assistenzfunktionen, die natürlich eine persönliche Unterstützung in der Übersetzung bei Behördengängen oder bei bestimmten anderen Beratungsthemen beanspruchen. Das ist ein Themenfeld, was wir mit unseren Übersetzungstools gar nicht abwickeln können, weil wir ganz am Anfang stehen. Wir setzen eher einen Fokus in dem Bereich der digitalen Barrierefreiheit und da gibt es mittlerweile eine Gesetzgebung von der Seiten der EU eine Richtlinie, wo öffentliche Stellen auch dazu verpflichtet werden, digitale barrierefreie Inhalte zur Verfügung zu stellen. Und wenn man sich anschaut, wie viel Gebärdensprach-Übersetzer oder Dolmetscher es gibt, kann man das gar nicht alles bewerkstelligen.
Ich nenne mal ein Beispiel: Es gibt in Deutschland allein 16,6 Millionen Webseiten. Wenn man überlegt, dass jeder irgendwas in Gebärdensprache übersetzbar machen möchte um ein besseres Verständnis da herzuleiten und für die gehörlosen Menschen zur Verfügung stellen, dann ist das mit den minimalen Ressourcen überhaupt nicht möglich. Wir wollen versuchen standardisierte Themen übersetzbar zu machen, das ist ein allererster Schritt, den wir gehen möchten, umInhalte im kommunalen Sektor beispielsweise oder im musealen Sektorverfügbar zu machen, die dann auch wirklich verstanden werden. Also, der Bedarf ist durchaus sehr groß.

DO: Bevor wir zu Ihrem Avatar kommen, können sie uns vielleicht erläutern, es gibt ja mittlerweile ganz gute Algorithmen um Texte von Sprache x in Sprache y zu übersetzen, wo besteht die spezielle Herausforderung Lautsprache oder geschriebene Sprache automatisiert in Gebärdensprache zu übersetzen?

AS: also zum einen gibt es nicht die eine Gebärdensprache, also müssen wir kontextbezogene Übersetzung durchführen. Das heißt, wir können nicht Texte eins zu eins übersetzen, sondern es musseben auch eine Verständlichkeit gegeben sein. Das ist zumindest die erste große Herausforderung. Dolmetscherinnen machen das im Prinzip auch. Sie überlegen sich genau, wie der Text auch tatsächlich verständlich übersetzbar gemacht werden kann.
Das ist eine der größten Herausforderungen, das so einfach wie möglich darzustellen und auch dann entsprechend zu übersetzen. Wenn wir Wort für Wort übersetzen, dann fehlt die Grammatik, es fehlt der Sinn, die Sinnhaftigkeit und somit kann der Kontext nicht verstanden werden. Zum anderen ist die Herausforderung aber auch noch gegeben, dass wir erstmal den Text in eine übersetzbare ich sag mal Textsprache übersetzen und diese Textsprache dann wieder in Animation also in eine dreidimensionale Sprache rückübersetzbar machen. Das ist eine riesen-Herausforderung, die wir da bewerkstelligen müssen. Zum einen einmal die Sinn-Analyse: Wie ist der Text im Kontext gemeint. Zum anderen aber auch dann wieder bestimmte Bewegungsparameter zu generieren, um einen Avatar animierbar zu machen oder eine Übersetzung dann auch in Gebärdensprache in diese dreidimensionale Bildsprache zu übersetzen.

Ein Avatar für Gebärdensprache

DO: sie haben es gerade schon gesagt, dass Ihre Firma auf die Entwicklung von Avataren spezialisiert ist. Was genau ist jetzt das neue an diesem Avatar für Gebärdensprache, was sie gerade entwickeln.

AS: Aus unserer Sicht ist das so die Königsdisziplin, die wir schaffen können, weil es natürlich unheimlich viele Details gibt die von den Gehörlosen in der Bildsprache wirklich wahrgenommen werden. Das heißt, wir müssen sehr genau arbeiten, um die Animation zu gestalten, sonst wird die Verständlichkeit nicht gegeben sein. Das ist das eine Thema. Und zum anderen gehen wir hier auch sehr stark in einen Bereich fast fotorealistischer Abbilder von menschlichen Darstellern. Wir bleiben natürlich im dreidimensionalen Umfeld. Es gibt auch Avatare die auf Basis von Videobildern generiert werden, das ist nicht das Thema, was wir forcieren, sondern wir gehen dann tatsächlich an einer dreidimensionalen, ich sag mal so, spieleähnlichen Umgebung, wo aber wirklich ein Fotorealismus, also ein Höchstgrad an Genauigkeit und Qualität in der Animation gegeben sein wird. Damit haben wir in der Vergangenheit einige positive Erfahrung machen können.
Das größte Problem in der Vergangenheit war auch immer, dass die Verständlichkeit und somit auch die Akzeptanz fehlgeschlagen ist, weil es einfach zu roboterhafte oder zu cartoon-mäßige Darstellungsformen gab. Wir versuchen das über die realistische Darstellung und über den Stand der heutigen Technik entsprechenden qualitativen Möglichkeiten in der Animation darzustellen.

DO: wenn ich richtig verstanden habe gab’s da spezielle Herausforderungen, wie z.B. dass das Mundbild bei der Gebärdensprache auch extrem wichtig ist und dass das durch bisherige Avatare nicht getreu abgebildet werden kann.

AS: ja, das ist richtig. Die kommunizierte Emotion, das Mundbild, die Mimik und auch die Bewegungsabläufe müssen fließen und genau sein aber auch in einer gewissen Synchronität funktionieren. Das heißt, bestimmte Verzögerungen führen zu einer falschen Darstellung und einer falschen Verständlichkeit und deswegen muss die höchstgradige Synchronität auch gegeben sein, auch selbst eine Handstellung, eine Handposition wenn die an einer falschen Ebene ist kann es zum ganz anderen Verständnis oder einer ganz anderen Bedeutung führen. Genau deswegen sind diese ganzen zeitlichen und auch genauen und räumlichen Darstellung enorm wichtig und das Mundbild haben sie vollkommen recht das ist eine der wichtigsten Gegebenheiten genauso wie in der deutschen Gebärdensprache die Mimik eine ganz wichtige Rolle spielt.

Die Einbindung von Gehörlosen

DO: das ist ja ein länger laufendes Forschungsprojekt gewesen. Inwieweit waren denn Personen mit der Gebärdensprache als Muttersprache an dem Projekt beteiligt?

AS: Wir haben versucht, von Anfang an darauf zu achten, dass wir Gehörlose Mitarbeitende da haben. Und wir haben ja einen Partner, die Firma jomma aus Hamburg, die uns da tatkräftig unterstützt haben. Sie haben 29 Mitarbeitende, die quasi fast alle in dem Bereich der Gehörlosigkeit liegen und letztendlich Menschen dieeben auch dort die Muttersprache beherrschen. Die haben wir beratend, also in unserem Projekt auch mitarbeitend gehabt. Die Firma jomma hatdie Expertise mit eingebracht, aber wir haben auch in verschiedenen evaluationsstufen in dem dreijährigen Forschungsprojekt auch versucht, so viel es geht Aufklärungsarbeit zu leisten und die Community mit zu involvieren.
Das heißt, wir haben verschiedene Befragungen/Umfragen, aber auch Demonstratoren entwickelt die getestet wurden von gehörlosen Menschen die uns auch Feedback gegeben haben was gut war, was schlecht war, was verständlich war, was nicht verständlich war, um somit eigentlich einen höhst Grad an Akzeptanz auch zu schnüren mit der Darstellung der Visualisierung. Aber auch wir können nur lernen, wenn wir in der gemeinsamen Erarbeitung auch hier entsprechende Technologien vorantreiben. Und das war für uns ganz wichtig, dass die Gehörlosen-Community eine wesentliche Rolle spielt. Wir wissen, dass wir noch zu wenig gemacht haben, das muss ich ganz selbstkritisch sagen und wir brauchen im Prinzip in der Zukunft in den Projekten noch mehr Expertise, noch mehr Mitarbeitende Teammitglieder, die wir im Prinzip involvieren können und damit wir gemeinsam herauch an der Zukunft der Gebärdensprach-Digitalisierung arbeiten können, ist das einfach ein ganz wichtiges Element, was wir auch gemerkt haben.

DO: Das ist auch deshalb wichtig, weil diese Avatare in früheren Versionen ja sehr stark kritisiert wurden aus der Gehörlosen-Community.

AS: also zum einen haben wir in der Vergangenheit ja einen festen Partner, der diese Sprach-Expertise und durch Taube Dolmetschende quasi mit eingebracht hat. Das heißt, wir haben tatsächlich Mitarbeitende Team Mitglieder gehabt und das war aber ehrlich gesagt zu wenig, weil in dem Forschungsprojekt waren eigentlich zu wenige Personen, die sich dann auch austauschen konnten.
Zum anderen haben wir natürlich Teilnehmende aus Social Media akquiriert, die eben gesagt haben: Wir möchten hier ein bisschen mehr erfahren über das Projekt, wir möchten vielleicht auch mal bei den Befragungen teilnehmen. Aber wir haben kein spezielles Verfahren entwickelt.
aber wir haben ein Folgeprojekt, was wir realisieren. Da geht’s dann auch um eine bidirektionale Kommunikation. Dass man im Prinzip auch einen Dialog in Gebärdensprache führen kann zwischen Hörenden und Nicht-Hörenden. Da geht’s dann auch um Sensor-Erkennung/Gebärden Erkennung, ein sehr herausforderndes Thema und hier in dem Bereich sind wir gerade unterwegs, dass wir auch tatsächlich einen Beirat ethisch moralische Unterstützung noch mit einbinden, wo wir Taube mit Menschen in den Beirat einberufen, die auch Expertise mit einbringen, wo noch mehr Mitarbeitende Partner, die auch wirklich entgeltlich mitarbeiten und nicht nur einfach ehrenamtlich, mit involvieren möchten.
Da arbeiten wir hörenden sicherlich viel viel breiter und anders auf einer ganz anderen Ebene, weil es einfach viel mehr Menschen gibt die hörend sind. Und insofern auch nicht alle zu fordernd irgendwo mitarbeiten müssen und dafür nicht entgeltet werden. Aber hier in der gehörlosen Kommunikation haben wir gemerkt, dass wir da einfach viel mehr aufbauen müssen, viel mehr investieren müssen und auch viel mehr ja auch vielleicht aktiv Mitarbeitende Teammitglieder akquirieren, die auch da entgeltlich arbeiten.
Es war unser erstes Projekt, das erste avasak Projekt, was wir realisiert haben, wo wir wirklich auch viel lernen mussten, ich sag mal das erste dreiviertel Jahr bis Jahr ging wirklich darüber, dass wir wirklich alle auf der gleichen Wellenlänge gearbeitet haben. Das heißt, es war sehr viel wissen, was vermittelt wurde sowohl von den Gehörlosen als auch von den Hörenden. Wir hatten 3d-artisten wir hatten Software Entwickler wir hatten Wissenschaftler in dem Projektteam und wir haben Gehörlose in dem Team gehabt und wir haben dazu noch die dolmetschenden, die wirklich dann auch komplett immer involviert waren in die Prozesse. Allein der Umgang mit Gehörlosen Gebärdensprach-dolmetschenden war recht schwierig und da mussten wir erstmal alle abholen. Da ging sehr viel Zeit darauf, dass wir alle die gleiche Sprache gesprochen haben und auch das gleiche Verständnis für den Forschungsstand und auch die Zielsetzung hatten. Da haben wir sehr viel gelernt.
Und wir haben gemerkt, dass viel zu wenige der Native Signer, also jenen, die Gebärdensprache als Muttersprache haben, auch dabei waren und das wollen wir jetzt in der Zukunft auch immer weiter forcieren und optimieren. Und das ist eigentlich auch eine große Zielsetzung im jetzigen Forschungsprojekt und in anderen Projekten.
Vielleicht noch ein Aspekt, den ich erwähnen möchte: Wir haben gemerkt, dass sich ganz neue Job-Beschreibungen, also Beschreibung von Arbeitsplätzen ergeben, woraus wir ganz viel Potenzial schöpfen glaube ich, was wir in der Zukunft auch noch aufbauen müssen und wo wir auch viel mehr für das Thema Inklusion machen möchten. Wir sehen dass hier allein schon in dem Projekt, was wir jetzt realisiert haben und was jetzt auch fortgeführt wird, wahnsinnig viel Kompetenz.
Daraus können sich neue Job-Beschreibungen und Arbeitsplätze ergeben.

Künftige Projekte

DO: Wenn ich richtig verstanden habe ist das erste Forschungsprojekt jetzt abgeschlossen. Mich hätte auch interessiert: Wie lange hat das erste Forschungsprojekt gedauert und was sind jetzt die nächsten Schritte die Sie tun werden?

AS: Also das erste Forschungsprojekt ist avasak, da ging es um die KI-basierte Übersetzung von Text in geberdensprache und Wirten uns als Anwendungsdomäne das Reise Umfeld, also Reise Information und aktualisierte Hinweise im Reise Kontext ausgesucht. Das ging von 2000 bis 2023. In dem Projekt wurde eine Basistechnologie erstmal erforscht und entwickelt. Da fehlt noch ganz viel an Daten umwirklich komplett zu sagen wir gehen in die Richtung, wir haben einen Übersetzungsservice beispielsweise wie Google Translate oder deepl wo man Text reinhaut und dann kommt ein übersetzungs Feld raus so weit sind wir noch nicht. Wir haben hier nur die elementar grundlegensten Übersetzungs-Mechanismen erforscht und entwickelt unddie qualitative Darstellung die wir erreichen müssen damit eine Verständlichkeit erreicht werden kann.
Mit diesem Basis-Kenntnissen arbeiten wir natürlich weiter und wir haben jetzt da verschiedene Projekte realisiert aber auch in ein großes Projekt wo wir jetzt im Bereich der kommunalen Kommunikation arbeiten da haben wir ein mittlerweile 70 Kommunen mit im Feld wo wir einfach sagen wir möchten digitale Dienste auch barrierefrei in Gebärdensprache verfügbar machen und bauen da ein Übersetzung das heißt kommunaler Gebärdensprach-Avatar.
Und ein neues Forschungsprojekt, wo wir auch die Grundlagen Forschung erstmal machen istim bigeko da geht’s um eine bidirektionale Gebärdensprach-Kommunikation, wo wir versuchen ein System zu realisieren mit denen hörende und Gehörlose im Bereich einer Notruf-Simulation ich muss sagen Simulation weil wir natürlich kein System entwickeln s erproben welche Anforderung gegeben sein müssen wie z.B. ein Absetzen eines Notrufes oder eine Meldung eines Unfalls in Gebärdensprache, aber auch von einer Leitstellen aufgenommen werden kann.
Wie sind wir darauf gekommen. Wir hatten im Rahmen von dem abersak Projekt beispielsweise die Rückfrage von einzelnen ÖPNV-Unternehmen: Die sagen, wir haben hier Notruf sollen in den U-Bahnschächten stehen, in U-Bahnstationen stehen. Und wenn da ein Gehörloser hingeht dann drückt er den Knopf und dann war’s das und mehr passiert nicht. Wir haben überlegt: Wie kann man das ändern. Insofern muss maneben verschiedene sensorbasierte Technologien haben, mit denen wir Gebärden übermitteln können, die dann direkt in Text übersetzt werden oder in Sprache. Und umgekehrt musseben die Leitstelle auch die Möglichkeit haben, hier auch Inhalte zu übermitteln, modular zusammenzustellen und Fragen zu stellen, die dann in Gebärdensprache gegeben werden können. Und das ist eigentlich so eine Zielsetzung, ,die wir jetzt gerade in den nächsten 3 Jahren erarbeiten.
Das sind alles Projekte die immer noch in der Grundlagenforschung sind. Wir werden auch rudimentär erstmal Technologien analysieren und erforschen, dieeben möglich sind und wir wollen ein Anwendungs-Case mit der Gehörlosen Community dann auch erarbeiten, was Notwendigkeiten angeht und die Usability auch erforderlich macht die Gewissen Caseeben auch notwendig sein muss.

Weitere Infos

Do: Dann die letzte Frage. Wo kann man sich über die Projekte weiter informieren ?

AS: also wir bieten zum einen natürlich auf den Webseiten einiges an Informationen. Aber wir bieten auch regelmäßig Webinare an. Das heißt, es kommt dann immer drauf an worüber möchte ich mich informieren. Zum einen gibt’s Webinare die für die Kunden von Interesse sind, wo ich einfach mehr erfahren kann, welche Möglichkeiten es in der Übersetzung in Geberdensprache gibt und wie wir damit umgehen und was für nächste Schritte wir realisieren.
Zum anderen gibt’s aber vor allem für die Gehörlosen Community auch Informationschannels, die wir mit der Firma yomma machen. Das sind dann auch in Gebärdensprache gehaltene Webinare oder Meetings, wo quasi dann über die Projekt-Fortschritte, wo aufgeklärt wird über bestimmte Ergebnisse, die wir erzielt haben. Aber auch, um eben auch Tests zu machen, zu gucken, wie kommt ihr damit in einer offenen Diskussion klar oder was sind kritische Punkte. Und da kann ich nur empfehlen, auf unseren Social Media-Kanälen zu folgen oder auf den Webseiten. Und da werden dann regelmäßig Informationen zu den entsprechenden Veranstaltungen gegeben .

DO: ja super ich werde auf jeden Fall die Sachen in den Shownotes verlinken. Ich danke Ihnen für Ihre Zeit und wünsche viel Erfolg für das weitere Projekt.

AS: ich danke ganz herzlich für die Möglichkeit und ich kann nur immer sagen: Wir stehen noch ganz am Anfang und da ist noch viel Entwicklungsleistung zu erbringen. Ich meine, wenn man an übersetzungs-Services 20 Jahre zurückdenkt, da hat man ja auch noch nicht Texte in andere Sprachen übersetzen können. Insofern stehen wir da ganz am Anfang. Aber ich glaube, es ist ein ganz wichtiger Schritt, um eben auch hier alle Inhalte digital verfügbar zu machen
Weitere Infos zum Avatar bei Charamel