blog.fohrn.com

Warum ich Freund eines maschinenlesbaren Webs bin, was das mit Peer Steinbrück zu tun hat und wieso Maschinenlesbarkeit nicht mit dem Verlust der Daten-Souveränität gleichzusetzen ist.

Unser SPD-Kanzlerkandidat Steinbrück macht auf Twitter folgendes: Das politische Geschehen wird auf einem Notizzettel kommentiert, eingescannt und das Foto via Twitter verlinkt bzw. veröffentlicht. Das hat erst mal seinen eigenen Charme – Handschrift im Web ist persönlich und sympathisch, Peer Steinbrück ist nicht mehr der Jüngste und ich bin mir sicher, dass es viele gibt, die es als Symbol der Aufrichtigkeit deuten, wenn hier der Nicht-Digital-Native über den analogen Umweg dennoch in der digitalen Welt ankommt. Das ist authentisch.

steinbrueck_notizzettel

Wirklich begeistert bin ich davon nun aber dennoch nicht. Das habe ich auf Twitter auch mitgeteilt und eine kleine Diskussion kam in Gang, die ich für wichtig genug erachte, sie an dieser Stelle in aller epischer Breite nochmal zu vertiefen. Twitter nutze ich gerne unterwegs und mein lustiger Handyprovider stellt mir nicht überall den Datendurchsatz zur Verfügung, der das Handling von Bilden zum Spaß werden lässt. Das ist aber nicht das eigentliche Problem . vielmehr empfinde ich in Bilddaten codierte Textinformation als unpraktisch. Suchmaschinen können diese Inhalte noch nicht sinnvoll indexieren, es ist schwierig(er), die Information weiterzureichen oder aus ihr zu zitieren und wenn sich niemand findet, der sie transkribiert, kann irgendwann auch passieren, dass sie verloren geht.

Ich kann mich an eine ähnliche Diskussion um die Jahrtausendwende erinnern. Damals stand erstmalig in der Fläche Browsertechnologie und hinreichend Bandbreite zur Verfügung, um auch in größerem Umfang mit Grafiken auf Websites umgehen zu können. Marketingleute haben das schnell für sich entdeckt – die „Kachel“ war geboren. Was man mit Text hätte ausdrücken können, wurde um Willen der optischen Gefälligkeit grafisch aufgearbeitet und diese Browserfenster füllenden Grafiken dann in gleichmäßige Kacheln zerschnitten, damit sich das stabiler übertragen ließ.

Zur damaligen Zeit wusste ich: Es gibt in Ort xy eine Autowerkstatt, einen Bäcker oder Friseur, die Information konnte ich mir aber trotzdem nicht ergoogeln, denn die war in einer Grafik versteckt. Und die Telefonnummer zum Nachfragen konnte ich auch nicht ergoogeln, die war in einer Grafik versteckt. Wenn ich wusste, das es die Firma gibt, den Namen aber nicht genau kannte und die URL nicht wusste – ich konnte die gewünschte Info nicht finden – sie war in einer Grafik versteckt.

Mein erstes „Smartphone“ war übrigens ein Ericsson R380s. Das hatte einen WAP-Browser, der quasi nicht grafikfähig war. Zum damaligen Zeitpunkt löhnte man auch für jede 10k – da war alles, was nicht Text war, schlicht nicht willkommen. In dieser Zeit wurden also erstmals die Forderungen nach einem maschinenlesbaren Netz laut. Nicht zuletzt war es Berners-Lee selbst, der das Problem erkannte und entsprechend thematisierte und einen Standard für ein semantic web zu formulieren versuchte.

Nutznießer dieses maschinenlesbaren Webs sind aber nicht nur Suchmaschinen, sondern all jene, die eine Information in irgendeiner Art transformiert brauchen um sie entweder erlangen oder verstehen zu können. Das kann die Notwendigkeit einer Übersetzung sein oder z.B. eine elektronische Braille-Zeile oder Sprachsynthese für einen sehbehinderten oder blinden Menschen.

An dieser Stelle muss ich nun in verschiedene Richtungen differenzieren:

  • ein maschinenlesbares Web bedeutet kein Grafikverbot – es fordert vielmehr dazu auf, die in der Grafik hinterlegte Information so gut wie möglich noch mal maschinenlesbar zu hinterlegen
  • Informationen so aufzubereiten, dass Suchmaschinen sie finden und sinnvoll verarbeiten können, ist per se auch erst mal nichts schlechtes. Klar – Google rapportiert der NSA alles, was mal irgendwo über deren Dienste gegangen ist (Stichwort: PRISM), aber das ist ein spezifisches Problem mit dem Quasi-Monopolisten und nicht mit Maschinenlesbarkeit
  • Ich kann meine Daten nicht schützen, in dem ich sie in irgendwelchen Dateien verstecke – dieses Obscurity-Ding hat noch nie hingehauen. Texte aus Bildern extrahieren kann jede lumpige OCR-Software, die man als Dreingabe bei Scannern findet. Handschriften verscannen konnte die Deutsche Bundespost in ihren großen Briefzentren bereits Mitte der 198oer Jahre. Das dürfte eine der leichtesten Fingerübungen großer Internetkonzerne und der Geheimdienste sein
  • Wir Städter haben zuhause armdicke DSL-Leitungen und 3G/4G-Flats auf dem Handy. Ok. Aber denkt wer an die Landbevölkrung, die sich zum Teil noch heute mit 56k durch die Gegend morst? Das wird, wenn die Drosselkom Ernst macht, auch die gut versorgten Städter treffen
  • Durch Formate kann ich nicht managen, wer auf Daten zugreifen darf und wer nicht – das dürfte klar geworden sein. Aber ich gehe noch einen Schritt weiter: Alle Daten, die eines solchen Zugriffsmanagements bedürfen,. haben im Prinzip im Netz nichts verloren. Klar ist das eine Frage, bei der ich die Vorteile gegen die Risiken des Vertraulichkeitsverlustes abwägen muss – aber prinzipiell gilt: Einen eingeschränkten Nutzerkreis kann ich nur offline haben und auch hier muss ich sicherstellen, dass diese Leute meine Daten nicht irgendwie doch (absichtlich oder versehentlich) irgendwo hochladen

Wo ist das Problem? Das semantische Web funktioniert erst dann, wenn sich hier wirkliche Standard etablieren, denn semantisches Web ist mehr, als Informationen aus Bildern als Text zu hinterlegen – hier geht es im Wesentlichen um einheitliche Beschreibung technischer Prozesse, Paraphrasierung, Operationalisierung und damit die Schaffung einer möglichst einfachen Verständigungsgrundlage im Umgang mit digitaler Information… Dieses Unterfangen wird aber durch den tendenziell anarchistischen Charakter des Webs konterkariert. Auch das ist erst einmal ok (man erinnere sich an den Bildschirmtext – da benötigte man zu Beginn sogar spezielle durch die Post zertifizierte Fernsehapparate, damit auch ja sichergestellt ist, dass jeder BTX-Nutzer in Deutschlands in exakt derselben Farbe dargestellt wird – das will man nicht!!). Die anarchistischen Grundtendenzen im Web haben viele Innovationen und Technologiesprünge mit sich gebracht (hätte man mit vor zehn Jahren erzählt, dass man über ein rottiges Kupferadernpaar mal eben 50MBits abbilden kann – ich hätte schallend gelacht!).

Mit dem Problem muss aber irgendwie umgegangen werden. Ich bin kein Verfechter von irgendwelchen Standards, aber es gibt erste Hinweise auf einen sinnvollen Umgang in diese Richtung. Einige der Berliner Radiomoderatoren und Podcaster lassen von Freiwilligen chronologisch ihre Sendungen mit Shownotes und darin eingebundenen URLs bereichern. So ist nicht nur ein schneller Überblick über den Inhalt gegeben sondern das Audio lässt sich auch sinnvoll mit dem Hypertext verbinden. Das ist insofern eine Leistung, da Audio ja eigentlich ein lineares Medium ist – beim genauen Hinschauen entdeckt man aber an der Bruchkante beider Medien von Komplexität und Linearität, dass hier die Shownotes eher als Behelf zu verstehen sind. Das tut aber auch nix – ein Behelf, der funktioniert, ist erst mal gut und wenn er sich durchsetzt, verliert er eben auch den Status des Provisoriums.

Jeder möge sich also Gedanken machen, wie er dazu beitragen kann, dass das Netz maschinenlesbarer wird. Das sog. Web 2.0 hat mit dem Tagging da schon eine erwähnenswerte Strategie. Mir hat sich damals noch nicht erschlossen, warum ich Tags benutzen soll, aber als ich die ersten Tags auf flickr gesehen habe, war sofort klar, welchen Nutzen tagging stiftet. Das ist alles nicht optimal und dennoch hilfreich.

Klar, die Nummer mit dem R380s ist nun zwölf Jahre her, die Welt hat sich gedreht. Wir haben höheren Datendurchsatz – und höheres Interesse von Wirtschaftsunternehmen und Staaten an unseren Daten. Beides lässt den Schluss zu, dass man ein maschinenlesbares Web technisch nicht benötigt und das man damit den Datenkraken in die Hände spielt. Ich hoffe, dass ich mit der vorangehenden Betrachtung diese Schluss als Fehlschluss entlarven konnte.

Zurück zu Steinbrück: Im engeren Sinne spielt seine Zettelscannerei keine Rolle. Er ist bekannt genug, dass sich Leute finden werden, die die kleinen Notizzettel abtippen oder zumindest zitieren. Und der Inhalt der Zettel ist nicht so bedeutend, dass ein echter Verlust entstünde, wenn er nicht jedem zugänglich wäre. Man kann gut ohne Steinbrücks öffentliche Notizzettel leben. Im weiteren Sinne leistet Steinbrück mit dieser Zettelscannerei den Offenbarungseid: Der Kanzlerkandidat der SPD hat die grundlegenden Prinzipien des Internets nicht verstanden. Oder aber für PR bereitwillig geopfert. Zu beidem beglückwünsche ich ihn. Nicht.