Schlagwort-Archive: OpenData

Abfragen im dezentralen Semantic Web. Oder: Baut viele SPARQL-Endpunkte statt grosser Datenplattformen

Wie Abfragen ueber verteilte Wissensquellen aussehen (nicht eine Super-Datenplattform!), ist in diesem Video von 2018 schoen erklaert (danke MarcelOtto). Ein praktisches Beispiel eines federated query mit Wikidata hatten @saerdnaer und @Wikidatafacts als kleine Fingeruebung fuer den kleineren Massstab bei einem Wikidata-Workshop in Ulm entwickelt.

(quelle:internet)

Ab 09:27 kommt im Video ein anschauliches Beispiel des dahinter liegenden Paradigmenwechsels. Anstelle von Apps, die auf hardcodierte APIs zugreifen muessen (und die dann wieder angeflanscht an zentralisierte Datensilos sind), werden Abfragen im dezentralen Modell lokal synthetisiert. Die notwendigen Daten kommen dann aus denjenigen verteilten Quellen, die fuer genau diese Frage notwendig sind.

In Ergaenzung (und technisch notwenige Voraussetzung) zum auf den Kopf gestellten Nutzungsversprechen von Open Data erlaubt diese Herangehensweise eine Abkehr von zentralisierten Superdatenplattformen. Die bisherige Idee war, dass es ja eine Vielzahl von Fachverfahren gebe, deren Daten in einzelnen Silos liegen. Um das aufzubrechen muessten Verfahren standardisiert werden und alle Daten in ein zentrales Silo anliefern. Was auch bedeutet, dass z.B. einzelne Kommunen oder Bezirke ihre bisherigen Fachverfahren fuer ein Thema aufgeben und sich der Mehrheit anschliessen muesten – und sei es mit Zwang.
Im Gegenmodell waere die interne Datenhaltung oder zumindest das Ergebnis eines ETL-Prozesses der Fachverfahrensdaten ein Knowledge Graph – und ueber verteilte Knowledge Graphs lassen sich wie im Video demonstriert wunderbar Abfragen fahren, nur durch die Magie von 5-Sterne-Daten mit Semantik. Die Bausteine dafuer sind mittlerweile Jahrzehnte alt und gut abgehangen. Und eigentlich passt das auch viel besser in das Modell eines foederalen Staats, der nicht alles von oben her vereinheitlicht und nach oben hin an sich zieht, sondern auf den Ebenen auch Entscheidungsspielraeume laesst.

Lilith Wittmann ist wie immer gleich deutlich radikaler und sagt: Alles bis drei Sterne sollte eigentlich gar nicht mehr zaehlen, wir muessten noch weiter gehen und Open Data erst ab vier Sternen ueberhaupt „zaehlen“ lassen:

Open Data und das auf den Kopf gestellte Nutzungsversprechen

Tori Boeck hatte im Februar einen Artikel ueber ein sich nun seit Jahren hartnaeckig haltendes Muster in der deutschen Open-Data-Szene veroeffentlicht: Alles scheint sich um „Anwendungsfaelle“ zu drehen, und dass die tatsaechliche Nutzung offener Daten (neben der schieren Zahl veroeffentlichter Datensaetze) ein Erfolgskriterium sei.

Toris Post war mir jetzt endlich aufraffender Anlass, verschiedene Textstuecke zusammenzustellen, die ich seit einer Weile vor mir herschiebe, und im Mai war das nun endlich alles so weit, dass ich einen ersten Entwurf beim Kommunalen Open Data Barcamp vortragen konnte. Denn dieser Fokus „die oeffentliche Hand soll Open Data bereitstellen, damit Dritte irgendetwas damit tun“ ist einer der fundamentalsten Missverstaendnisse des letzten Jahrzehnts in dieser Szene. Und ich fuerchte, dieses Missverstaendnis sabotiert seit Jahren die eigentlich anzugehenden Aufgaben.

Eine Quelle dieses Missverstaendnis koennte das typische “Showing what’s possible“-Muster aus dem Digitalen Ehrenamt sein. An einem konkreten Beispiel wird gezeigt, was mit offenen APIs und/oder offenen Daten oder einem besseren User Interface moeglich waere. Dabei ist beinahe egal, ob man nun einen bestehenden Dienst besser macht (wie z.B. kleineanfragen.de das tat), oder ob man an einem ganz konkreten Beispiel (fuer das man irgendwie an Datenpunkte kam) ein anschaulich nutzbares Produkt baut, wie die Trinkwasser-App.

Wolfram Eberius, Cfg-summit-20211127-codefor-berlin-02, CC BY-SA 4.0

Ende November hatten wir im Netzwerk Code for Germany einmal versucht, typische Aktivitaeten der lokalen Open-Data-Arbeitsgruppen einzuordnen, und an vielen Stellen kam dieses „showing what’s possible“ zur Sprache. Menschen machen das aus den verschiedensten Beweggruenden: Weil sie selber einen praktischen Anwendungsfall fuer das Ergebnis haben. Weil sie zeigen wollen, was geht. Oder einfach auch nur aus Spass.

An vielen Orten entstanden genau so vor ca. 10 Jahren die ersten veroeffentlichten Datensaetze. In Ulm hatte die Gruppe Engagierter einzelne Datensaetze per Mail von der Stadtverwaltung erhalten, und beispielsweise die Geodaten der Stadtbezirke selber zum Download und ueber eine CouchDB ausgespielt, und in Click-that-Hood praktisch erfahrbar gemacht.

Andere Staedte sprangen auf den „Trend“ auf. Datensaetze wurden immer noch haendisch herausgesucht und veroeffentlicht – und meist orientierte man sich dabei an den Datensaetzen, die bereits anderswo veroeffentlicht oder gar in einen praktischen Anwendungskontext bezogen wurden. Und nebenbei glaubte man, dass Datenportale hermuessten, Metadatenbeschreibungen fuer jede Excel-Liste im Datenportal wurden umstaendlich gepflegt, und viel dergleichen haendische Arbeit mehr.

Auf der zivilgesellschaftlich engagierten Seite entstand dadurch der empfundene Druck, die bisherigen Konzeptprototypen und Showcases zu „redeployen“. Anderswo gab es nun auch Stadtbezirks-Geoshapes, Trinkwasserinformationen und dergleichen mehr. Also, war die Annahme, muesse man die aktuellen Daten nun auch in einen lokalen Ableger dieser Showcases einpflegen. Gleichzeitig stieg die Erwartung, dass diese Beispielvisualisierungen auch auf lange Frist unterhalten und gepflegt werden wuerden. Und an den Orten, an denen sich niemand auf die aufwaendig bereitgestellten Daten stuerzte, war die Enttaeuschung gross. Denn wofuer macht man sich ueberhaupt den Aufwand?

Tbachner, Container Terminal Dortmund 12.01.2013, CC BY 3.0

Eigentlich seltsam, denn die Metapher ging ja eigentlich schon lange dahin, dass die Bereitstellung offener Daten so etwas wie ein automatisierter Containerhafen werden sollte – derweil die Daten immer noch wie haendisches Stueckgut aus den Fachverfahren und Excel-Listen herausgetragen werden.

Und da sind wir eigentlich am Kernproblem: An viel zu vielen Stellen wird haendisches oder maessig automatisiertes 3-Sterne-Open-Data immer noch als akzeptables Zwischenziel angesehen.

Wir erinnern uns aus dem Covid-Daten-Beispiel: Bis zu 3-Sterne-Daten kommen als CSV daher – ohne Informationen, was eigentlich in welcher Spalte steht und was das sein soll. Ist es ein Datum? Ein Strassenname? Die Zahl der Infizierten am gestrigen Tag? Wenn ich das auswerten will, muss ich das meinem Parser erst einmal haendisch pro Spalte beibringen. Und wenn das RKI die Reihenfolge der Spalten aendert, faellt der Parser auf die Nase.

Ich glaube, dass all das damit zusammenhaengt, dass in der Regel intern gar nicht die Voraussetzungen vorhanden sind, um mit diesen Daten in groesserem Umfang etwas anzufangen. Die Listen sind Datenbasis fuer (haendisch erstellte) Reports, (haendisch erstellte) Schaubilder, aber es sind weder die notwendigen Werkzeuge noch die notwendigen Infrastrukturen vorhanden, um schon verwaltungsintern Daten ueberhaupt strukturiert abzulegen und dann an anderer Stelle damit zu arbeiten – idealerweise mit dem Ziel eines Knowlege Graphs fuer 5-Sterne-Open-Data.

Und gerade weil die notwendige Voraussetzung fuer die Herstellung eines solchen Zustands eine hervorragende IT-Infrastruktur auf dem Stand der Technik ist, muessen wir die bisherigen Herangehensweisen weitgehend auf den Kopf stellen. Bisherige Beispielkataloge, was denn ueberhaupt als Open Data veroeffentlicht werden koennte, orientieren sich meist daran, was anderswo da war. Das waren aber eben entweder die beruechtigten “Low Hanging Fruits”, oder eben Datensaetze fuer die genannten Proofs of Concept. Das ist aber meist komplett losgeloest von einer internen Nutzung, die ueberhaupt erst die Motivation und den Anlass geben koennte, die dafuer notwendigen Strukturen aufzubauen. Idealerweise wuerde eine Strategie nicht damit beginnen, die hunderten Fachverfahren zu kartieren und wie man deren Daten per ETL herauskratzen kann. Sondern (mit einer klaren Strategie zu Linked Open Data im Kopf!) praktische Anwendungsfaelle zu finden, in denen Einheit A intern Daten braeuchte, die Einheit B bislang unstrukturiert ablegt oder auf Zuruf aufbereitet – und dann beginnt, Prozesse fuer die automatische Verdatung zu bauen. Inklusive des Aufbaus der notwendigen Kompetenzen und des Unterbaus, um das selber machen zu koennen oder zumindest den Weg dahin kompetent selbst zu bestimmen. Open Data darf kein Mehraufwand sein, sondern faellt quasi als Abfallprodukt aus besseren Prozessen heraus – wer etwas veraktet, produziert automatisch Linked Data, das bereits behoerdenintern nachgenutzt werden kann. Der Open-Teil ist dann „nur“ noch eine Frage dessen, was nach aussen veroeffentlicht werden soll.

Veranstaltungs-Nachbesprechungen, aber verteilt. Hybrid forever!

Am Donnerstag war eine Veranstaltung der Friedrich-Ebert-Stiftung zu „Digitaler Souveraenitaet“, und natuerlich musste ich da unbedingt mal reinschauen. Eigentlich war die in Praesenz in Karlsruhe geplant, und da waere ich auch extra hingefahren. Kurz vorher gab es aber einen Schwenk auf online, und das ermoeglichte auch vielen anderen Leuten aus dem weiteren Civic-Tech-Umfeld, teilzunehmen.

Abgesehen von einigen Seltsamkeiten (siehe Liliths Tweet) war das ein spannender Austausch, und im Chat gab es eine rege Diskussion auch mit Menschen, die offenbar Kommunalbackground hatten. Etwas den Rahmen verschoben hatte die Anwesenheit von MdL Jonas Hoffmann, dessen Forderungen zur Vermarktung oeffentlicher Daten ich hier schon kommentiert hatte. Das loeste natuerlich den Bedarf zu weiterer Diskussion aus – wohlgemerkt leider nicht „auf der Veranstaltung selbst“, denn von den vielen Diskussionsstraengen im Chat wurde nur wenig offiziell ausgewaehlt und besprochen. Aber Liliths gewohnt provokante Art sorgte dafuer, dass wir uns fuer nach der Veranstaltung noch in einem Twitter Space verabredeten und dort auch noch eine Stunde quatschten. Die Aufzeichnung ist auch nachhoerbar (im Tweet verlinkt).

Ich will jetzt gar nicht auf das Fuer und Wider von Twitter Spaces (oder anderen solchen Walled Garden) eingehen. Ich wuenschte, es gaebe mehr Alternativen, aber am Ende wird mir dann wieder unironisch die Forderung nach Digitalkommunismus vorgeworfen.

Was ich viel spannender fand: Jemand meinte im Codeforde-Austauschchat, dass man selber ja nicht nochmal eine Stunde investiert haette fuer so eine Nachbesprechung. Aber andererseits war das ja genau das Format, wie man es frueher in der Hosenwelt nach einer Praesenzveranstaltung gehabt haette mit rumstehen und quatschen. Nur dass es sich jetzt weniger in Teildiskussionsrunden aufteilt – und dass Leute von ganz woanders teilnehmen und mitdiskutieren koennen, die in Praesenz nicht unbedingt dabei sein koennten.

Ich glaube ja zwar nicht an eine Rueckkehr in „ein Leben wie vor der Pandemie“. Hybride Veranstaltungen sollten ganz normal werden. Aber ich baue jetzt schon ein wenig in meinem Kopf Setups, wie wir eigentlich auch bei Teilpraesenz-Veranstaltungen gerade solche Nach-Diskussionsrunden unter Einbeziehung moeglichst vieler nicht-anwesender Dritter technisch gut abwickeln koennen. Im Verschwoerhaus hatte der Verein diesen Winter richtig dick Geld in die Hand genommen, um genau solche hybriden Sachen noch besser abwickeln zu koennen (Symbolbild oben). Und uns ist immer wieder aufgefallen, dass all die praktischen Faehigkeiten aus Congress-Streaming, bisherigen Veranstaltungen und natuerlich den Erfahrungen aus pandemischen Loesungen total viel Wissen und Skills aufgebaut haben, die sich relativ gut auf solche Situationen uebertragen lassen duerften.

Ich wuerde das fuer einen grossen Gewinn halten.

Der Wirtschaftstraum vom Datenraum

Ist das ein Datenraum?
Photograph of the Division of Classification and Cataloging, 1937, gemeinfrei gekennzeichnet, Details auf Wikimedia Commons

In den letzten Jahren begegnet man immer wieder Pressemitteilungen zu „Datenraeumen“. Egal ob „urbaner Datenraum“ oder „Datenraum Mobilitaet“, aus irgendwelchen Gruenden will man nun nicht mehr nur Daten haben, sondern in der schoenen Tradition der Komposita muss man jetzt irgendwas dranhaengen, und jetzt ist es eben ein „Raum“.

Ich habe lange nicht verstanden, was es damit auf sich haben soll, und witzigerweise enden auch Nachfragen, was denn der Unterschied eines Datenraums zu einer Datenbereitstellung ist, oder was einen urbanen Datenraum so urban macht, oft in Handwaving. Urbane Datenraeume sind offenbar deswegen urban, weil sie mit urbanen Datenplattformen passieren. Klar.

Erst die Vorstellung der „Datenraum Mobilitaet“ im Open Transport Meetup im Mai 2021 liess einige Lichter bei mir aufgehen. Und gleichzeitig ergaben auch einige andere Projekte, naja, nicht wirklich einen Sinn, aber ihre Intention wurde mir etwas klarer. Und oh boy, laesst sich die oeffentliche Hand da gerade wieder spektakulaer ueber den Tisch ziehen.

Aus sehr sehr weiter Entfernung klingt die Mischung aus Datenraum und zugehoerigen Datenplattformen gar nicht so ganz verkehrt: Irgendwie (vielleicht magisch) sollen Datenpunkte aus verschiedensten Quellen mittels eines Enterprise Service Bus eingesammelt und vereinheitlicht bereitgestellt werden. Und zweitens soll dieser Datenraum am Ende dann alles koennen: Dort sollen nicht nur Daten der oeffentlichen Hand landen, sondern auch von Unternehmen, von BuergerInnen, alles ist an einem Ort, Rehkitze springen hocherfreut durch die bluehenden Landschaften usw usf.

Bei genauerem Hinsehen stellen sich dann aber einige Fragen:

  • Warum sollte ich als Privatperson oder Unternehmen die von mir erhobenen Datenpunkte auf dieser urbanen Datenplattform veroeffentlichen? Oeffentlich betriebene Internetdienste haben nicht den allerbesten Track Record dafuer, dass sie dauerhaft verfuegbar sind, dass URIs stabil bleiben, dass es keine ueberraschenden Datenreichtuemer gibt, dass Patches schnell eingespielt werden, etc pp.
  • Wie soll denn eine Plattform alles koennen? Also gleichermassen einigermassen statische (versionierte) Datensaetze, aber gleichzeitig auch Zeitreihen z.B. von Sensornetzwerken?
  • Wenn es am Ende (eigentlich logisch und notwendigerweise) sowieso mehrere verschiedene Plattformen fuer verschiedene Zwecke sind: Warum dann nicht gleich in Richtung Semantik und 5-Sterne-Open-Data arbeiten?
  • Und wenn man in Richtung 5-Sterne arbeitet – ist dann ein verteiltes und verlinktes System nicht eh viel gescheiter, und es ginge einzig darum, passende Infrastruktur als Commodity einkaufen zu koennen (wovon auch die oeffentliche Hand profitieren wuerde)?

Das sind zumindest die Fragen, die ich mir parallel bei den Vorstellungen diverser Datenraeume und beim Betrachten von vermeintlich alles koennen sollenden Datenportalen gestellt hatte. Bis es eben bei der Vorstellung des Datenraums Mobilitaet klick machte: Das alles ergibt genau dann einen Sinn, wenn man von einer Annahme ausgeht, die ich gar nie in Betracht gezogen hatte, weil sie so grotesk und hanebuechen ist: Naemlich, dass man irgendwie Eigentum an Daten haben und sichern kann. Im Zweifelsfall per Digitalem Rechtemanagement.

Vielleicht ist daher die Anlehnung an den (physischen) Datenraum auf neutralem Boden im Rahmen eines Konzernverkaufs oder einer Uebernahme abgeleitet: Die oeffentliche Hand soll ein System bereitstellen, in das sie selbst und privatwirtschaftliche Unternehmen Datensaetze einstellen koennen, und dann sollen die Beteiligten auf irgendeine Weise entscheiden koennen, wer Zugriff auf die geteilten Datensaetze bekommt und zu welchem Zweck sie genutzt werden koennen.

Das Framing findet beispielsweise im Rahmen magischer Begriffe wie der „Digitalen Souveraenitaet“ statt: Man moechte die Kontrolle behalten, auch nachdem man etwas veroeffentlicht hat, und diese Kontrolle verleiht einem irgendwie Souveraenitaet. Dass das de facto eben nur mit digitalen Rechteverwaltungsverfahren geht, faellt stillschweigend unter den Tisch. Das ganze Verfahren ist also nicht nur komplett orthogonal zur Weiterentwicklung in Richtung 5-Sterne-Open-Data und den dafuer notwendigen (und nach dem Datenraum-Projekt immer noch nicht hergestellten) Voraussetzungen, sondern es ignoriert auch die komplette DRM-Debatte der 2000er-Jahre. (Es sei ja eh ODRL und kein DRM und das mache es alles besser, naja)

Gleichzeitig werden wieder die Memes der „grossen auslaendischen Konzerne“ ausgepackt, gegen die es sich zu schuetzen gelte. Warum das Problem vor allem in der Herkunft der Konzerne liegen soll und man gleichzeitig gerne Smart-City-Millionen mit inlaendischen Konzernen verbrennt, bleibt unklar.

Viel schlimmer finde ich aber, dass dieses Framing sich offenbar – ebenfalls in kompletter Verkennung der Diskussionen der letzten 15 Jahre – auch allgemein in Debatten ueber Open Data einschleicht. In der oben eingebetteten Rede von Jonas Hoffmann (SPD) zum von der FDP eingebrachten Open-Data-Gesetzesentwurf in Baden-Wuerttemberg (PDF, 17/513) geht es nicht nur auf einmal auch um personenbezogene Daten und Datenschutz, sondern ab 03:20 soll gar „sichergestellt werden“, dass „Open Data nicht nur auslaendischen Konzernen hilft“. Open Data wird rein als Arbeitsplatzmaschine gesehen – und auf einmal sollen ueber rechtliche und technische Konstrukte die gewerbliche Nutzung von Daten eingeschraenkt bzw Geld daraus beschafft werden.

Das ist nicht nur deswegen bemerkenswert, weil der FDP-Entwurf in Abs. 3 des zu schaffenden § 3a ganz ausdruecklich diejenigen Informationen ausnimmt, zu denen ein Zugang erst nach einem Drittbeteiligungsverfahren moeglich waere oder deren Veroeffentlichung Urheberrechte Dritter entgegenstehen. Rein auf Faktendatenebene bleibt dann sowieso nur noch das Datenbankherstellerrecht als Rechtsgrundlage fuer eine Einschraenkung der Nachnutzung – wir hatten das hier bereits. Der Entwurf haette vor allem dafuer gesorgt, dass all die Informationen, die per Landesinformationsfreiheitsgesetz ohnehin auf Anfrage zu veroeffentlichen waeren, nun eben von Anfang an veroeffentlicht werden sollen. Man koennte die Umsetzung des Entwurfs theoretisch Crowdsourcen. Naja.

Zum Anderen aber sind Daten, die nicht fuer jedwede Zwecke frei nutzbar sind, schlicht kein Open Data. Das kann man dann Hoffmann-Daten nennen oder sonst etwas, aber Open Data ist das nicht. Und ich finde es etwas erschreckend, dass wir darueber im Jahr 2022 immer noch diskutieren muessen. (Erneut der Verweis auf den Dateneigentum-Artikel samt zugehoeriger Links)

Die einzigen Profiteure solcher Konstrukte sind a) grosse aus… moment… inlaendische Konzerne, die ums Verrecken Datenhandel mit Faktendaten betreiben wollen, und b) die beteiligten Unternehmen und Berater, die im Rahmen grosser Foerderprojekte an den dafuer noetigen DRM-Verfahren und -Plattformen herumdoktorn. Bezahlt wird das indes aus oeffentlichen Foerdermitteln – und leider lassen sich oeffentliche Stellen dafuer einspannen, diese Projekte voranzutreiben. Waehrend sich die technischen Schulden an anderer Stelle weiter ansammeln, und nichts passiert, um Open Data vernuenftig und automatisiert bereitstellen zu koennen.

Ich kann nur dazu aufrufen, als aufgeklaerte Zivilgesellschaft solche Projekte enorm kritisch zu hinterfragen. Es ist nichts weiter als die kuenstliche Privatisierung von Commons – und das traegt nicht etwa dazu bei, die Marktmacht boeser grosser Konzerne zu mindern, sondern verursacht Kollateralschaeden, die Groessenordnungen ueber dem erwarteten Nutzen liegen.

PS: Es geht auch positiv. Das Badische Landesmuseum hat angekuendigt, die Daten zu 10.000 Objekten aus seiner Sammlung im Sommer unter CC-0 gemeinfreiaehnlich zu veroeffentlichen – 3D-Scans, Audiodateien, PDFs, Bilder, Videos. Die Beteiligten schrieben auf Linkedin sueffisant, dass das 2022 doch Standard sei. Baem.

Open Data, wie es zu Covid haette sein koennen

Die Digitalisierung des Gesundheitswesens sei ein Trauerspiel, titelt das Redaktionsnetzwerk Deutschland. Nachdem man dem Reflex nachgegeben hat, „was, nur des Gesundheitswesens?“ zu rufen, dachte ich mir, man koennte ja mal das mit dem Aufschreiben des besseren Gegenentwurfs machen, der mir seit Monaten im Kopf rumspukt.

Tatsaechlich beobachte nicht nur ich die (Daten)lage seit geraumer Zeit mindestens mit Irritation. Lena Schimmel schrieb kurz vor Weihnachten einen ganzen Thread, dass sie selbst erschreckend lange die eigentlich vom RKI veroeffentlichten Daten ueber Sequenzierungen gar nicht erst gefunden hatte:

Ich glaube, dass „wir“ als „die gesellschaftliche Open-Data-Lobby“ uns wieder viel viel mehr auf Linked Open Data als Ziel konzentrieren und das auch kommunizieren muessen. Bei all dem Einsatz, wenigstens CKAN oder irgendein Datenportal auszurollen, scheint das fernere Ziel ueber die Jahre immer mehr in Vergessenheit geraten zu sein.

Schon vom Nutzungsfaktor her duerfte dieses Ziel jedoch am Beispiel der Pandemie sehr klar zu vermitteln sein. Seit nun beinahe zwei Jahren setzen sich jeden Morgen viele DatenjournalistInnen an ihre Rechner und versuchen, aus den aktuellen Datenpunkten zum Infektionsgeschehen und den Impfungen Erkenntnisse zu ermitteln und diese nachvollziehbar aufzubereiten.

Ueber die Zeit hinweg ist es ein bisschen zu einem Running Gag geworden, dass das RKI dabei immer wieder mal Spalten vertauscht oder neue Daten hinzufuegt, so dass all die gebauten Parser auf die Nase fallen.

5-Sterne-Schema aus den 2000ern. Quelle.

Derweil koennte die Lage mit verlinkten – oder wenigstens semantischen – Daten deutlich einfacher ablaufen. Man kann sich die 5-Sterne-Treppe fuer offene Daten am Beispiel der RKI-Berichte recht anschaulich klarmachen:

  • In der ersten Stufe (die Daten sind irgendwie da) sind die Informationen zwar irgendwie als digitale Symbole codiert, das kann aber auch ein PDF sein, oder im schlimmsten Fall ein PDF eines eingescannten Dokuments. Eine Maschine kann diese Symbole uebertragen und die dadurch codierten Inhalte aufbereiten und anzeigen, aber die Datenpunkte darin sind im unpraktischsten Fall nur fuer Menschen lesbar.

(Exkurs. Wenn wir ueber „Daten“ sprechen, werden schon diese beiden Definitionen haeufig wild durcheinander geworfen. Einerseits die Symbole oder „bits und bytes“, die Information codieren – so wie die Buchstaben, die diesen Satz bilden. Andererseits Datenpunkte, die z.B. verarbeitbare Information ueber einen Temperaturmesswertverlauf abbilden.)

  • In Stufe 2 und 3 sind auch die Datenpunkte fuer Maschinen interpretierbar, weil die Informationen mehr oder weniger strukturiert in einem proprietaeren (Excel) oder offenen (CSV) Format vorliegen. Die Zusammenhaenge bzw. die Semantik erschliessen sich jedoch immer noch nur der menschlichen Betrachterin, die diese Struktur selbst in die automatisierte Auswertung einbauen muss. Wenn das RKI ohne Ankuendigung die Reihenfolge der Spalten aendert, kann ein einmal geschriebenes Auswertungsskript diese Aenderung nicht ohne weiteres erkennen und wird erst einmal falsche Auswertungen ausgeben, bis es auf die veraenderte Datenlage angepasst ist.
  • Das ist der Punkt, der in Stufe 4 behoben wird: Dann ist naemlich auch die Semantik als weitere Ebene im Datensatz codiert. Ich muss nicht mehr als auswertende Person aus dem Originaldokument in menschlicher Sprache lesen und dann fuer das Auswertungsskript festlegen, dass Spalte B das Bundesland und Spalte N die Zahl der in einem Impfzentrum vollstaendig geimpften Personen unter 60 Jahren ist. Ich muss stattdessen dem Auswertungsskript fuer das (zugegeben, einfachere) Beispiel des Bundeslands „nur“ mitgeben, dass es in irgendeiner Spalte eine Beschreibung gemaess Language, Countries and Codes (LCC) erwarten kann, und da wird dann ein passender ISO-3166-2-Code mit dabei sein. In welcher Reihenfolge die Spalten dann ankommen, und ob das jetzt der Impf- oder der Inzidenzbericht ist, spielt eigentlich keine Rolle mehr.
Die Fallzahlen kommen aus einem Repo, die Geoshapes aus einem anderen, auf das als Dependency verlinkt werden kann. Ausserdem: Ich kann keine Karten zeichnen (deswegen brauche ich Shapes)

Im Vollausbau der Stufe 5 verlinkter Daten wird vielleicht am besten deutlich, was man mittlerweile haben koennte. Anstatt dass man sich jeden Morgen ein hoffentlich aktualisiertes Excel-File der Inzidenzen und Impfinformationen herunterlaedt, reicht das Gegenstueck zu einem git pull – alles liegt als von Tag zur Tag (bzw Veroeffentlichungsschnappschuss zu Veroeffentlichungsschnappschuss) versionierter Datenframe vor. Wenn ich den Datensatz einmal ausgecheckt habe, kann ich lokal die Updates bekommen, die Unterschiede von Schnappschuss zu Schnappschuss diffen, und auch in der Historie beliebig zurueckspringen, um Zeitreihen zu machen.

Da aber sowohl die Semantik im Datensatz codiert ist, als auch Links auf andere Datenquellen vorhanden sind oder von mir hergestellt werden koennen, kann ich sehr viel mehr automatisieren, was ich sonst zu Fuss machen muesste: Wenn in irgendeiner Spalte die Landkreise mit Kreisschluessel codiert sind, und ich meine Auswertung per Karte machen will, kann ich aus einer passenden anderen Datenquelle automatisch die Geometrien des NUTS-3-Level in Deutschland laden und mit dem RKI-Datensatz verknuepfen.

Das ist jetzt rein aus der Nutzungsperspektive gesehen, weil das mit die anschaulichste ist. Eigentlich viel spannender ist aber, die Konsequenzen durchzudenken, was es bedeuten wuerde, die dafuer notwendige Infrastruktur im Betrieb zu haben. Das heisst, dass Datenpunkte und Informationen nicht haendisch in der Gegend herumgetragen und zu Fuss alleine in Excellisten vorgehalten und gepflegt werden. Dass es definierte Schnittstellen und Datenfluesse gibt, die auch die behoerdeninterne Nutzung von fuer Entscheidungen relevanter Daten erlauben, ohne dass diese muehsam und fehleranfaellig zusammengekratzt werden muessen. Und nicht zuletzt auch, dass wir dafuer die ueber Jahrzehnte aufgebauten technischen Schulden der oeffentlichen IT-Infrastruktur abgebaut und die Architektur vorausschauend sparsamer weil effizienter(!) geplant und umgesetzt haben.

Es ist total schade, dass so viele der Visionen aus den 2000ern durch das jahrelange Klein-Klein der Umsetzung, die zu schliessenden Kompromisse mit Verwaltungen, und die perverse incentives fuer „Umsetzungen“ verkaufende Dienstleister so tief in die metaphorischen Sofaritzen verschwunden und in Vergessenheit geraten sind.

Manches davon ist natuerlich auch mittlerweile ueberholten Ueberlegungen von damals geschuldet. In der 5-Sterne-Treppe wird beispielsweise als erster Schritt ein „OL“ angegeben, das fuer eine Offene Lizenz stehen soll. Das halte ich mittlerweile fuer ueberholt und teilweise durch die viele Wiederholung auch ein wenig schaedlich. Denn die Diskussion z.B. bei Infektions- oder Impfdaten ist eigentlich gar nicht, ob sie unter der internationalen Creative-Commons-Lizenz oder der nutzlosen und ersatzlos abzuschaffenden Datenlizenz Deutschland „lizenziert“ werden. Denn das sind Faktendaten, und die gehoeren allesamt gemeinfrei gemacht.

tl;dr: Bitte einmal Linked Open Data als Ziel, zum mitnehmen, und etwas mehr freundliche Radikalitaet.

„Wie apt-get fuer Daten“, knapp 12 Jahre spaeter

Ich bin gerade noch einmal ueber den Vortrag „CKAN: apt-get for the Debian of Data“ vom 26C3 im Dezember 2009 gestolpert. Rufus Pollock (Gründer von Open Knowledge International) und Daniel Dietrich (Mitgruender des deutschen Ablegers, der OKFde) erklaerten damals ihre Vision eines Netzwerks von Datenquellen.

Das heute, knapp 12 Jahre spaeter noch einmal anzusehen, war… spannend. Ich zucke heute ueber das “this is when nerds run things” am Anfang peinlich beruehrt zusammen, aber es lohnt sich total, noch einmal aufzurollen, was in der Zwischenzeit alles (nicht) passiert ist:

  • Der gesamte Vortrag denkt in (vermeintlich) notwendigen Lizenzen fuer Daten – “Free Data“ von Denny Vrandečić wird erst drei Jahre spaeter veroeffentlicht werden. An ganz vielen Stellen betont Pollock, dass es total wichtig sei, irgendeine Lizenz anzugeben – das haelt sich leider an vielen Stellen bis heute und klebt uns als Bewegung am Bein.
  • Bei etwa 16:00 fragt Pollock nach Postleitzahlendaten: Gibt es die? Sind sie frei verwendbar? Jemand aus dem Publikum behauptet, dass dem so sei – tatsaechlich bekam Markus Drenger dieses Jahr Anwaltspost, weil er von staatlicher Stelle (versehentlich) veroeffentlichte Geodaten verbreitet hatte, inklusive der „lizenzierten“ Postleitzahlen.
  • Ueberhaupt, die ganze Idee von CKAN: Versionierung, Packages etc., wo sind wir 12 Jahre spaeter? Man denke nur an die RKI-Daten waehrend der Covid-Pandemie. Oder auch die gesamte Idee mit Dependencies und weiteren herunterzuladenden Datenpaketen. Die schmeckt ein wenig wie Linked Open Data – und ich haette das sehr gerne in der Praxis. Habe ich aber noch nie gesehen. (Bei 53:20 ff. wird das am Beispiel der Postleitzahlen beschrieben)
  • „Schaut mal, die Briten nehmen schon CKAN um Open Data zu veroeffentlichen und wir hoffen, dass das die deutsche Politik ueberzeugt, ebenfalls Open Data herauszugeben“. Ohweh, das tut weh.
  • Generell, die ganze Begeisterung – Daten werden wichtiger als Code werden, mit Gibson-Zitaten, etc.pp. – das haengt sicher auch mit meiner romantischen Vergangenheitsverklaerung zusammen, aber da kommt schon ein wenig Nostalgie auf 😉
  • Ab 44:36 kommt eine hervorragende Frage: Jetzt taucht da ein Katalog mit Daten auf – ist das langfristig nicht sowas wie es Webkataloge vor Websuchmaschinen waren? Sollte das nicht alles von Maschinen erfassbar und bearbeitbar sein anstatt haendisch? Pollock erklaert ein bisschen herum, aber in dem Austausch ist IMO ein Kernproblem der ganzen Datenportale bis heute sehr klar vorhergesehen.
  • Vor allem auch: Wer vertritt all diese Visionen heute ueberhaupt noch, um eher industriegetriebenen Memes wie dem „Datenraum“ etwas entgegenzuhalten? Wo bleibt das Zukunftsversprechen von Linked Open Data, so dass ich morgens nur einen Update-Befehl ausfuehren muss, um das (versionierte, aktuelle) Paket z.B. fuer die Impfdaten des RKI zu bekommen?

Keine einfach-so-Lizenzen fuer Datensaetze

Ich sitze gerade an einer internen Handreichung fuer die Bereitstellung von Open Data, und bin dabei wieder ueber die Unsicherheiten von Menschen im oeffentlichen Dienst gestolpert, welche Lizenz man denn fuer Open Data verwenden solle.

Das Problem ist: Eigentlich ist die Frage schon falsch. Denn die auf dem Urheberrecht aufbauenden Lizenzen sind ueberhaupt nur anwendbar, wenn es sich bei dem zu lizenzierenden Material um Werke im Sinne des Urheberrechts handelt, oder Datenbankherstellerrechte bestehen. Das duerfte aber regelmaessig bei reinen Faktendaten nicht der Fall sein, insbesondere nicht bei Messdaten.

Leider hat sich – vermutlich auch durch das ueber die Jahre entstandene Erklaermaterial, das gerne auch einfach mal CC-BY-Lizenzen hierfuer vorsieht – die Vorstellung in den Koepfen verfestigt, dass man Lizenzen „einfach so“ anwenden koenne, ohne dass hierfuer irgendwelche Voraussetzungen erfuellt sein muessen. Umso schlimmer wurde das durch die „Datenlizenz Deutschland“, die gar nicht erst offenlegt, auf welcher Rechtsgrundlage sie anwendbar sein soll (siehe, siehe auch).

Ich hatte hier im Blog letztes Jahr schon argumentiert, warum ich diesen Automatismus „Daten als Open Data herausgeben → beliebige Lizenz im Sinne der Open Definition anwenden“ bzw. die Frage „wem gehoeren die Daten“ fuer gefaehrlich halte. Und dass an den Anfang der Entscheidung die Frage gehoert, ob hier Urheberrechte vorliegen – weil wenn nein, gehoert als Label schlicht die CC-0 drauf, und gut ist.

Jochen vom OK Lab Berlin machte mich gestern auf zwei Schriften aus dem Open-Science-Umfeld aufmerksam, die zur Unterfuetterung dieser Argumentation gut geeignet sind, und die ich bislang noch nicht kannte.

Die Kurzform ist das Fact Sheet on Creative Commons and Open Science (2017). Sehr viel ausfuehrlicher ist „Rechtsfragen bei Open Science“ von Till Kreutzer und Henning Lahmann (2019), die detailliert am UrhG entlang die Rechtslage aufzeigt und auch in mehreren Kapiteln auf FAQ zu bestimmten Aspekten eingeht. Zielpublikum ist zwar eigentlich ein akademisches, das mit Forschungsdaten umgeht. Der Transfer auf Daten der oeffentlichen Hand sollte aber nicht schwer fallen.

Anti Datenportal Ultras

Immer wieder begegne ich Diskussionen, dass man zum Bereitstellen offener Daten erst einmal ein „Datenportal“ brauche (wahlweise auch eine „Datendrehscheibe“ oder sonstwas; ich schlage fuer das neue Buzzword „Datenraum“ gleich mal vorsorglich hier den Begriff „Datenraumfahrtbahnhof“ vor).

Wasserturm, ehemalige Wiley Barracks in Neu-Ulm
Martavictor, Wasserturm, ehemalige Wiley Barracks in Neu-Ulm, CC BY-SA 4.0

Dieses Vorgehen stellt die Kausalitaet aber auf den Kopf. Das ist so, als wolle man irgendwo im Schrebergarten neben dem Acker eine Moeglichkeit zum Haende waschen und Pflanzen giessen haben, und anstatt mal einen Brunnen zu bohren, plant, konzipiert und baut man einen sehr komplizierten Wasserhochbehaelter. Sobald der dann fertig ist und die ersten Datens^wEimer voll Wasser haendisch reingeleert wurden, faellt dann aber auf, dass es immer noch keinen Brunnen gibt – oder gar eine Pumpe, mit der der Hochbehaelter automatisch gefuellt werden koennte.

Die umgekehrte Vorgehensweise ist die zielfuehrendere: Wenn ich einen Brunnen bohre und erst einmal eine einfache Handpumpe montiere – kann ich meine Haende waschen und die Tomaten giessen. Ziel erfuellt. Ich kann spaeter eine Solarpumpe, einen einfachen Pufferbehaelter oder ein Hauswasserwerk, eine Wasseraufbereitung, eine Klaerstufe, alles moegliche nachruesten, und vor allem auch Dinge durchautomatisieren. Aber die wesentliche Funktion, zu deren Zweck ich das alles gemacht habe, wurde von Anfang an erfuellt.

Und wenn ich mitgedacht habe, habe ich auch auf genormte Anschluesse und flexibel umsteckbare Schlauchsysteme gedacht, falls sich spaeter mal meine Ansprueche aendern.

Um die Metapher mit Leben zu fuellen, reicht ein Blick auf https://gtfs.mfdz.de. Die Seite sieht aus als sei sie auf Geocities gehostet, aber das macht nichts, denn sie ist momentan eine der besten Quellen, um in Deutschland an offene Fahrplandaten zu kommen. Die werden naemlich derzeit an ganz verschiedenen Stellen veroeffentlicht – teilweise ganz einfach auf einer Website aufgelistet, teilweise in einem eigens eingerichteten Datenportal, und teilweise immer noch nur fuer registrierte Nutzer:innen. Letzteres ist aus DSGVO-Sicht spannend, und der Sinn nicht ganz klar – denn als Open Data duerfen sie natuerlich auch gemirrort werden. Oder man baut eben einen URL-Shortener, der nichts anderes tut, als auf das aktuelle ZIP-File zu linken. Naja.

Allen Menschen mit Ambitionen fuer Datenportale kann man derweil nur sagen: Scheut euch nicht, eure Daten einfach in genau so einem Stil herauszugeben. Steckt lieber Energie in automatisierte Bereitstellung, oder passende Prozessketten, die so wie hier auch gleich Berichte ueber Probleme und Fehler automatisiert mit bereitstellen. Wenn Daten das neue Grundwasser sind, dann ist eure Aufgabe, die Daten moeglichst einfach und automatisiert sprudeln zu lassen – und sich dann an den Wasserturm zu machen.

Ein paar Gegenfragen zur Frage „wem gehoeren die Daten?“ (Kurze Antwort: Niemandem. Und das ist auch gut so.)

Vielleicht ist das nur ein subjektiver Eindruck, oder ich reagiere darauf mittlerweile staerker, aber mir begegnen gefuehlt immer haeufiger beilaeufige Bemerkungen oder Fragen dazu, „wem die Daten gehoeren“. Beispielsweise bei der Frage, wer die Veroeffentlichung irgendwelcher Messdaten als Open Data freigeben koenne, „weil die Daten ja XY gehoeren“. Oder aber auch als vermeintliches Argument fuer technologische Souveraenitaet: Die oeffentliche Hand soll Dienste selbstbestimmt anbieten anstatt sie dem freien Markt ueberlassen, „weil dann gehoeren die Daten der IoT-Sensorik am Ende der Stadt, anstatt privatwirtschaftlichen Akteuren“.

Es ist wichtig, dass wir alle solche Bemerkungen immer und konsequent hinterfragen, wenn wir ihnen begegnen. Gerade die zweite Form ist naemlich eigentlich eine fast schon witzige Verdrehung dessen, was passiert ist: Privatwirtschaftliche Akteure haben sehr lange versucht, ein in der Realitaet gar nicht existierendes Eigentumsrecht an Daten in unsere Alltagssprache zu verankern – und indem wir ein Gegenmodell zur Privatisierung von Daten fordern, verbreiten wir ungewollt das Maerchen vom Dateneigentum.

Denn es ist vollkommen egal, ob oeffentliche Hand, Privatperson oder Wirtschaft: Daten (und hier meine ich insbesondere automatisiert erfasste Messdaten, aber auch schiere Faktendaten) koennen niemandem „gehoeren“. Und das ist auch gut und richtig so. Ein „Eigentum“ an Daten wuerde bedeuten, dass ich mit meinem Thermometer die Aussentemperatur messen und dann Dritten verbieten koennte, diesen Temperaturwert an andere weiterzugeben, nachdem ich ihn verraten habe. Und das waere fatal. Genausowenig kann und darf irgendwer mir verbieten oder nur unter bestimmten Auflagen erlauben, weiterzuerzaehlen, dass 768 Stufen aufs Ulmer Münster führen – auch wenn ich das aus einem (insgesamt urheberrechtlich geschuetzten) Buch oder der Wikipedia weiss (siehe auch).

Tatsaechlich kann die Verwertung und Verbreitung von Daten durch Dritte nur unter ganz bestimmten Bedingungen eingeschraenkt werden – beispielsweise aufgrund datenschutzrechtlicher Bestimmungen, meist aber aufgrund des Urheberrechts. Und nachdem sich neben des Begriffs des Dateneigentums auch die Annahme eingeschlichen hat, dass man Lizenzen (also Bedingungen und Einschraenkungen, zu welchen Konditionen Daten verarbeitet oder weiterverbreitet werden duerfen) einfach so anwenden kann (hier ist beschrieben, warum dem nicht so ist), halte ich es fuer ueberfaellig, diese Annahmen durch gezielte Nachfragen bei jeder Gelegenheit einem Realitaetscheck zu unterziehen.

Beispielfragen, die mir bislang eingefallen sind (und die ich bislang nie in exakt diesem Script abgespult habe, weil ich kein sadistischer Quaeler bin):

  • Was meinen Sie mit „gehoeren“?
  • Auf welcher genauen Rechtsgrundlage soll hier die Nachnutzbarkeit durch Dritte eingeschraenkt werden koennen?
  • Ich meine, auf welcher Rechtsgrundlage soll hier die CC-BY-Lizenz verbindlich gemacht werden koennen? Warum soll ein Dritter hier zur verbindlichen Namensnennung verpflichtet werden koennen?
  • Sie sagen schon wieder „gehoert“ – es gibt doch gar kein Eigentumsrecht an Daten, sondern nur bestimmte Immaterialgueterrechte. Bauen Sie hier auf das Urheberrecht auf?
  • Nach welcher Argumentation handelt es sich denn um ein geschuetztes Werk? (vgl. Kapitel 2.6 dieses Abschlussberichts, inline PDF)
  • Aber Faktendaten sind doch gar keine individuelle schoepferische Leistung (PDF), weswegen sollte hier ein Schutz nach § 2 Abs. 2 UrhG vorliegen?
  • Aber das Datenbankurheberrecht nach § 4 UrhG schuetzt doch nur die Form und Anordnung, nicht die Daten selbst. Und ueberhaupt: Ist die Anordnung der Daten hier wirklich eine schoepferische Leistung?
  • Sind Sie sicher, dass fuer das Live-Ausspielen eines aktuellen Messwerts Datenbankherstellerrechte nach §§ 87a ff. UrhG anwendbar sind?
  • Selbst wenn es so ein Eigentum gaebe: Wie wuerden sie das durchsetzen wollen? (PDF)
  • Kennen Sie das Gutachten der Justizministerkonferenz (PDF), dass ein Dateneigentum ueberhaupt nicht sinnvoll waere und oekonomisch keinen Nutzen haette?

Mit solchen (freundlich verpackten) Fragen bekommen wir hoffentlich bald sowohl die Idee vom Dateneigentum wie auch die Annahme von der Anwendbarkeit von „Datenlizenzen“ als magische Zaubersprueche etwas geradegerueckt. Interessanterweise scheint solche Fragen vor allem auf C-Level-Entscheiderebenen sonst kaum jemand zu stellen.

Verantwortung internalisieren: Als Verwaltung Software verstehen

Unter diesem Tweet sammelten sich einige Antworten, die mir Anlass sein sollen, einmal unsortierte Gedanken der letzten Monate ein wenig zu ordnen. Die meisten Mitlesenden duerften wissen, dass seit ueber 5 Jahren bei Code for Germany (und vielerorts schon viel laenger, und natuerlich nicht nur in Deutschland) ehrenamtliche oertliche Gruppen der oeffentlichen Verwaltung zeigen, was Open Data bringt. Wie man Daten strukturiert. Worin die Vorteile des Ganzen liegen.

Man koennte also sagen: Dass Open Data nuetzlich ist, das daraus tolle Dinge entstehen, dass das ein anstrebenswerter Zielzustand ist und dass 100% Open Data eigentlich spaetestens seit 4 Jahren Status Quo sein sollte, darueber muss man eigentlich nicht mehr diskutieren.

Und dennoch tut sich die oeffentliche Hand offenkundig an sehr vielen Orten immer noch enorm schwer, dies alles in eine Praxis automatisiert bereitgestellter Offener Daten, passender Beschlussgrundlagen und weitsichtiger Beschaffungspolitik zu giessen. Es beschaemt mich, wenn 2020 immer noch Hackathons als neue Massnahme vorgeschlagen werden. Dazu dachte ich sei auch schon das meiste gesagt, aber ergaenzend sei nochmal auf die vielen vielen Beispiele von Jugend hackt verwiesen, die wirklich nun ueber Jahre und hervorragend zeigen, was sich mit Open Data und einer engagierten Zivilgesellschaft machen laesst. Die Frage ist jetzt doch vielmehr, was die naechsten Schritte sind, um die Ideen der Hackathons in der Verwaltung zu verfestigen.

Witzigerweise zeigte gerade ein eher schiefes Beispiel im weiteren Verlauf der Twitterdiskussion worum es eigentlich geht und wo es hakt:

Der Punkt ist natuerlich, dass Kraftfahrzeuge und Vergaser fertig zu kaufende Produkte sind, die selbst fuer den Einsatz im oeffentlichen Dienst passgenau von der Stange gekauft werden koennen. Fuer Spezialanfertigungen – sagen wir mal, Loeschgruppenfahrzeuge – gibt es jahrzehntelang entwickelte Prozesse, Schirrmeistereien und Fachmenschen, die tatsaechlich wissen, welche Ausruestung und Beladung auf das neue Einsatzfahrzeug kommen soll. Und es gibt in der Tat nicht wenige oeffentliche Einrichtungen (ja, ich spreche hier wieder mit der Feuerwehrbrille), die ihre Fahrzeuge selber warten und pflegen. Warum auch nicht.

Auf einer Wardley-Map fuer Datenfluesse, Prozesse und Entwicklungsketten innerhalb der oeffentlichen Verwaltung stuenden aber neben den vielen Bruechen im System jede Menge Komponenten, die entweder aktuell “Custom built” sind oder sich ueberhaupt erst noch in der “Genesis” befinden. Daten werden vielfach noch haendisch per Excel-Export aus Fachverfahren gekratzt und dann mehr oder weniger bereinigt in irgendein Datenportal geschaufelt.

Ueberhaupt: Datenportale. Oder nein, Datenplattformen. Meine Guete. Das ist das Gegenstueck zur Silver Bullet: Wenn man erstmal die Datenplattform hat, dann… ja was dann? Dann ist der Rauskratzprozess der Daten immer noch haendisch. Und was bringt es, wenn das neue Supersystem theoretisch Zeitreihen abbilden kann, wenn innerhalb der Verwaltung niemand da ist, um im Zweifelsfall mittels eines sehr kleinen Shellscripts eine Echtzeit-Datenquelle auch mit der passenden Senke in der Plattform™ zu verbinden? Oder wenn es – noch schlimmer – immer noch keine Ansaetze von Ratsbeschluessen und Grundsaetzen gibt, dass z.B. auf Grundlage von Vergaben entstehende geeignete Daten auch mittels passender Klauseln zu Open Data gemacht werden? Lucy Chambers nennt sowas Upside-Down-Projects: Es soll eine der oberen Schichten im Stack gebaut werden (vielleicht weil das irgendwo in einem Grant Proposal stand), also wird erstmal die Fassade vor dem Fundament gebaut. Oder die uebermaechtige Wasser-Echtzeit-Verbrauchsanzeige, waehrend das metaphorische Wasser noch haendisch im Eimer ins Haus getragen wird. Im schlimmsten Fall hat man nicht mal nen verdammten Eimer.

Und dann sind wir doch relativ schnell wieder bei der Frage, ob die oeffentliche Hand Code anfassen koennen soll. Meine Ueberzeugung: Ja, das sollte sie unbedingt.

Denn, und da sind wir bei einem Knackpunkt fuer mich: Diese Vermittlerrolle, diese Adapterfunktion – Daten aufbereiten, Dinge scrapen, Prozesse bauen – wird bislang viel zu viel vom Digitalen Ehrenamt in Deutschland aufgefangen. Also von all den Menschen, die jetzt immer wieder und immer noch auf Hackathons eingeladen werden, als haetten sie nicht mittlerweile genug damit zu tun, die Proofs-of-Concept aufrechtzuerhalten, was alles moeglich waere, wenn die oeffentliche Hand zumindest in Grundzuegen selber wuesste, wie Code, Datenstandards und IT-Architekturen aussehen.

Paradebeispiele gibt es genug: kleineanfragen.de als Ein-Personen-Projekt, um zu zeigen, wie man solche Dokumente richtig bereitstellt. Einfach nur ein Proof of Concept, seit September 2014(!) bereit zur schluesselfertigen Uebernahme durch die oeffentliche Hand – und nichts dergleichen ist passiert. Im Gegenteil verlassen sich zunehmend JournalistInnen und ParlamentarierInnen auf ein ehrenamtliches Projekt, dem nun seit ueber fuenf Jahren das „offizielle“ Produkt nicht annaehernd gleichziehen konnte (siehe, siehe, siehe). Oder die ganze Geschichte rund um OParl: Ein Datenstandard fuer Parlamentsinformationssysteme, der nur durch massiven persoenlichen Zeitaufwand Ehrenamtlicher entstehen konnte, und fuer den ich bis heute bei keinem Dienstleister eine schicke Auswertung als Ersatz fuer die meist grottigen Ratsinformationssystem-Oberflaechen buchen kann, selbst wenn ich als Kommune Geld darauf werfen wollen wuerde.

Also nein, Software ist kein Auto. (Manche Vergleiche sind aber absurd. Okay.) Aber wenn dieses Digitalisierungszeug endlich mal gelingen soll – und wenn wir die vielen Ehrenamtlichen, die jahrelang gezeigt haben, wo die Reise hingehen kann, endlich aus der nie gewollten Garantenposition herausloesen wollen – gehoert nach dem Pioneer/Settler/Town-Planner-Muster auch passende Kompetenz in der Verwaltung aufgebaut. Muessen zumindest manche VerwaltungsbeamtInnen auch irgendwann mal Cronjobs und Shellscripts einrichten koennen. Muessen dafuer schnell passende VMs fuer die Verwaltung klickbar sein. Muss statt Innovationstheater mit (natuerlich nicht transferierbaren) Leuchttuermen die marode IT-Basisinfrastruktur in einen brauchbaren Zustand versetzt und kontinuierlich weiter gewartet werden koennen. Nicht unbedingt, weil die oeffentliche Hand alles selber machen koennen sollte. Im Gegenteil, moeglichst viel sollte als Commodity klickbar sein. Dafuer muesste man aber wissen, was es alles gibt, und Technikfolgen abschaetzen koennen. Und dafuer hilft es ungemein, mal ellenbogentief in APIs gewuehlt zu haben.

Davon hoere ich auf den ganzen Schlipstraeger-Digitalisierungsgipfeln aber erstaunlicherweise immer noch erstaunlich wenig.