Semantik und Maschinenlesbarkeit – eine Säule der digitalen Barrierefreiheit

Tim Berners-Lee beschrieb schon sehr früh die Idee eines semantischen Webs. Dabei sollten Informationen so ausgezeichnet werden, dass sie von Maschinen bzw. Programmen ausgelesen und neu zusammengesetzt werden könnten. Das geht ein wenig in Richtung Künstliche Intelligenz,
allerdings basiert das semantische Web auf Metainformationen, die Programme „verstehen“ also nicht, worum es geht. Sie werden durch die Metainformationen in die Lage versetzt, selbständig Schlüsse zu ziehen, nicht mehr, aber auch nicht weniger. Das Stichwort dazu ist Information Retrieval.

Inhalt

Metadaten und semantisches Markup

Metadaten enthalten informationen über Informationen. Die einfachste Form sind die HTML-Tags selbst. Der Tag h1 zum Beispiel sagt über ein Stück Text aus, das es eine Überschrift Ebene 1 ist. Der Tag span=“h1″ sagt, dass es sich um ein span mit der Klasse h1 handelt – mit anderen Worten, nichts von Belang. Die Tags, die auf reine Gestaltung ausgelegt sind wie bold, italic und so weiter werden zwar noch eingesetzt, gelten aber als verpönt. Stattdessen wird z.B. strong eingesetzt, das via einer CSS-Klasse formatiert werden kann. Strong zeigt also an, dass dieser Text besonders wichtig ist, sagt aber nicht, wie er angezeigt werden soll.
Daneben gibt es die Metadaten im Head der HTML-Datei: Description, keywords, lang – um nur einige der bekannteren zu nennen. Bei diesen Metadaten hat es früher einen ziemlichen Wildwuchs gegeben, so dass sie auch dank Spamming kaum zu gebrauchen waren. Da Webseiten heute hauptsächlich über Redaktionssysteme erstellt werden, kümmert sich kaum noch ein Mensch um die Infos im Head. Der Bublin-Core-Standard ist der Versuch, Ordnung in das Chaos zu bringen. Die meisten aktuellen Dokumentenformate wie Doc, ODF oder PDF verfügen ebenfalls über die Möglichkeit, Informationen wie Stichworte, Autor, und Titel einzutragen. Wirklich durchgesetzt hat sich das aber lediglich bei MP3 in Form der ID3-Tags.
Die Meta Deskription wird bei Google und anderen Suchmaschinen gelegentlich in den Suchergebnissseiten als Snippet angezeigt, ansonsten spielt nur der Title-Tag für fast alle Nutzer eine wichtige Rolle, er wird in der Kopfzeile des Browsers oder in der Tab-Leiste angezeigt. Erwähnenswert ist noch die Möglichkeit, Geodaten in den Meta-Tags unterzubringen, damit wird eine geografische Verortung des Seitenbetreibers vereinfacht. Das könnte beim Location based Services und dem mobilen Internet eine Rolle spielen – oder auch nicht.
Während HTML 4.01 und XHTML 1.0 eine eher schwache Semantik hatten, soll das mit HTML5 und WAI ARIA anders werden. In ARIA gibt es die sogenannten Orientierungspunkte wie Navigation, Inhalt und so weiter. Ähnliches wird es in HTML5 geben. Die Orientierungspunkte von ARIA werden bereits auf vielen Seiten unterstützt, z.B. in WordPress-Installationen, auf Yahoo und google und sogar teilweise auf Facebook.

Hierarchie und Zusammenhänge

Im visuellen Design werden Hierarchien wesentlich über Größen-Unterschiede, Nähe von Elementen und visuelle Anordnung kommuniziert. Diese Elemente funktionieren nur, wenn die Website genau so betrachtet wird, wie es vom Gestaltenden gedacht war. Arbeitet jemand mit starkem Zoom, einem anderen Design oder einer anderen Darstellung, etwa mit Screenreadern, funktioniert das nicht mehr.
Neben der visuellen Struktur ist deshalb auch eine technische Struktur notwendig. Es gibt über HTML5 eine Makrostruktur, um die Webseite zu strukturieren und eine Mikrostruktur, um Texte zu strukturieren.
Die Makrostruktur sorgt im Prinzip dafür, dass wir an den HTML-Tags bereits erkennen können, in welchem Bereich der Seite wir uns befinden. Nav, Content, Section und Footer liefern die nötigen Informationen.
Innerhalb von Texten gibt es Absätze = p, Headings = h1-h6, Listen und Zitatblöcke. Gerade be langen Texten erleichtern sie die Orientierung, ein Beispiel dafür sind Artikel bei der Wikipedia.
Zusätzlich werden ungeordnete, verschachtelte Listen verwendet, um die Struktur verschachtelter Navigationen an Blinde zu kommunizieren. Blinde bekommen ansonsten nur die Links an sich vorgelesen, wissen aber nicht, ob sie in der Haupt- oder der Unter-Navigation sind, ob die Navigation 3 oder 10 Punkte hat und so weiter.

Microdata und XFN

XFN oder FOAF hat sich mehr oder weniger etabliert, weil es in den installierbaren WordPress-Versionen seit langem verankert ist. Wer eine Blogroll bzw. eine Linkliste über das System anlegt, kann auch Informationen darüber vermitteln, in welcher Beziehung man zu diesem Link steht. Ich kann z.B. sagen, das ist eine meiner Webseiten, das ist eine Webseite meines Freundes und so weiter. FOAF ist im Prinzip eine erweiterte Form von XFN, über FOAF können soziale Beziehungen maschinenlesbar dargestellt werden.
Ein weiterer Standard sind micro data. Dabei werden den Informationen über Attribute Eigenschaften zugewiesen. Praktisch wird das vor allem bei Kalender- und Kontaktdaten verwendet: also VCard oder HCard. Das ist ein ganz netter Service, weil dadurch Daten leichter ins Adressbuch oder den Kalender aufgenommen werden können.

Das semantische Web

Die Idee des Semantic Web ist schon betagt. Tim Berners-Lee beschrieb sie schon 1999 in seinem „Web-Reportt“. Es geht darum, Inhalte auf Webseiten maschinenlesbar zu machen. Ein Programm soll anhand der Metadaten in der Lage seinInformationen zu extrahieren.
Ein Beispiel: jede Veranstaltung hat bestimmte Informationsbestandteile: Veranstaltungsdatum und -zeit, Veranstaltungsort, Titel der Veranstaltung, Veranstaltungsbeschreibung und Stichworte. Diese Informationen stehen meist irgendwo auf der webseite verteilt. Suchmaschinen arbeiten bisher aber nur auf Stichwortbasis. Es ist heute also praktisch unmöglich, im Internet nach allen Veranstaltungen zum Thema „Digitale Demokratie“ zu suchen. Stattdessen müsste man das Stichwort „Digitale Demokratie“ in Verbindung mit Messe, Kongress, Barcamp oder etwas ähnlichem kombiniert suchen. Zudem müsste man die Phrase „Digitale Demokratie“ in verschiedenen Varianten ausprobieren. Und dennoch ist es so gut wie sicher, dass wir viele Veranstaltungen übersehen würden. Einer semantischen Suchmaschine hingegen könnte man sagen: „Suche mir alle Veranstaltungen zur digitalen Demokratie im Jahr 2012“ und die Suchmaschine würde eine entsprechende Liste auswerfen.
Das bis heute nicht gelöste Problem ist der technische Aufwand und die Standardisierung. Jemand müsste hingehen und einen Standard entwickeln, das W3C stellt dafür die technische Basis mit RDF(s), OWL und SparQL. Diese Standards müssten in die gängigen Redaktionssysteme integriert werden, um schließlich von den Redakteuren eingesetzt zu werden. Das müsste so einfach sein wie einen Text zu schreiben und zu formatieren. Jenseits von Vorzeigeprojekten wie Teseus oder der semantischen Wikipedia spielt das semantische Web bisher keine große Rolle.

Schema.org

Ähnliches gilt für das von Google, Yahoo und Microsoft initiierte schema.org, das vergleichbar mit Microdata ist. Seltsamerweise haben sich die SEOs noch nicht in Massen darauf gestürzt, es gibt kein Plugin, um das in WordPress zu integrieren, was schon einiges über die Relevanz von schema.org zeigt. Allerdings gibt es schon einige Schemata auf der Portalseite zu finden, die Chancen für schema.org dürften also aktuell besser sein als jene von RDFs.

Die Chancen für die Barrierefreiheit

Es ist schon absehbar, dass bis auf HTML5 und ARIA mangels Interesse der Webmaster sich mittelfristig keines der oben genannten Systeme durchsetzen wird. Ob man tatsächlich eine Semantisierung auf dieser Ebene benötigt ist eine andere Frage. Aktuell scheinen schema.org und RDFs eher für Spezialbereiche interessant zu sein, vor allem dort, wo Informationen ohnehin in Datenbanken gespeichert werden und Webseiten dynamisch daraus generiert werden, die Informationen also ohnehin schon strukturiert sind. Wer studiert hat würde eine Bibliothek mit einem semantischen Katalog durchaus schätzen.
Bisher werden semantische Informationen in HTML oder ARIA vor allem von Screenreadern genutzt. Eine stärkere Semantisierung würde es Blinden wesentlich erleichtern, zum Beispiel gezielt einzelene Bereiche einer Webseite wie die Navigation, den Inhalt oder die Infospalte anzuspringen. Es hat sich zwar etabliert, Sprunganker und Überschriften als Hilfsmittel einzusetzen, aber Sprunganker funktionieren nicht in allen Screenreader-Browser-Kombinationen und bei den Überschriften hat sich kein echter Standard herausgebildet, wie sie korrekt eingesetzt werden sollen.
Ein weiterer Vorteil semantischer Inhalte ist, dass sie einfacher übersetzt werden können. So wäre es leichter, Programme zu entwickeln, die Texte aus Alltagssprache in Leichte Sprache oder Gebärdensprache übersetzen.

Weiterlesen

Tim Berners-Lee. Der Web-Report. Econ 1999
Warum semantischer Code wichtig ist – gironimo.or
Dirk Lewandowski. Web Information Retrieval – komplettes Buch als PDF
Informationsarchitektur von Texten
Semantic and Machine Readibility