Schlagwort-Archive: Freie Daten

Das pwc-Gutachten fuer NRW zur Datenlizenz Deutschland

Im letzten Post hatte ich angekuendigt, etwas auf das vom Land NRW bei pwc in Auftrag gegebene „Kurzgutachten“ zur sogenannten Datenlizenz Deutschland einzugehen.

Ich habe keine Ahnung, wie das zustande kam, aber ich kann mich des Eindrucks nicht erwehren, dass die dort Beteiligten die Welt der freien Lizenzen nicht so recht kennen, oder dass eventuell das gewuenschte Ergebnis schon vorher feststand.

Kurz und knackig: Die Zusammenfassung

Fangen wir einmal mit der Zusammenfassung auf Seite 4 an:

Gegenüber anderen Open Data-Lizenzen bietet die Datenlizenz Deutschland 2.0 den Vorteil, dass diese auf die Begrifflichkeiten des deutschen Urheberrechts ausgelegt ist und so keine zusätzlichen Auslegungsprobleme bereitet.

Diese Aussage ist in zweierlei Hinsicht bemerkenswert.

Zum Einen gibt es durchaus Open-Data-Lizenzen, die auf den europaeischen Urheberrechtsraum ausgelegt sind. Zum Entstehungszeitpunkt der DL-DE 1.0 gab es zwar die Creative-Commons-Lizenz noch in der Version 3.0, die z.B. kein Datenbankherstellerrecht nach dem europaeischen Rechtsverstaendnis kannte. Genau um diese Luecke zu beheben, wurde jedoch beispielsweise die ODbL entwickelt (hierzu spaeter mehr). Und die CC 4.0 ist ganz klar und von Anfang an auf Kompatibilitaet mit dem europaeischen Rechtsrahmen hin entwickelt worden.

In einer Broschuere von 2019 zu implizieren, dass die DL-DE allen anderen Open-Data-Lizenzen eine Passgenauigkeit auf den deutschen Urheberrechtsraum voraus habe, ist schlichtweg eine Falschaussage.

Zum Anderen ist spannend, dass hier behauptet wird, dass keine „zusaetzlichen“ (zusaetzlich wozu?) Auslegungsprobleme bereitet werden wuerden. Das steht in krassem Widerspruch zum naechsten Absatz:

Sie ist einfach strukturiert, knapp, und somit auch vom nicht rechtskundigen Anwender ohne vertiefte weitere Erläuterungen zu verstehen

Im letzten Post erwaehnte ich schon die Dreigliedrigkeit der CC-Lizenzen: Die fuer Laien verstaendliche Kurzfassung, die maschinenlesbare Fassung und den formellen Lizenzvertrag unter Berufung auf die anzuwendenden einschlaegigen Rechtsgrundlagen.

Die CC-Lizenzen bringen also durchaus eine einfach strukturierte, knappe, und explizit an Laien gerichtete Kurzfassung („human-readable summary“) mit sich, um mit wenigen Worten den Rahmen und die Bedingungen fuer die Nutzung zu umreissen.

Um aber auch in unklaren Faellen Rechtssicherheit und Verlaesslichkeit zu haben, gehoert bei den CC-Lizenzen die Langfassung dazu – die beispielsweise erklaert, warum diese Lizenz ueberhaupt in diesem Fall angewendet werden kann, worum es genau geht, dass keine Beschraenkungen der gewaehrten Rechte fuer nachfolgende Empfaenger zulaessig sind, wie es mit der Lizenzierung von Patent- oder Markenrechten aussieht, etc pp.

Hierzu schweigt sich die DL-DE aus. Komplett. Wer genaueres wissen will, hat einfach Pech gehabt. Nice!

Mit den beiden Datenlizenzen Deutschland steht zudem ein bereits abgestimmtes, vom IT-Planungsrat vorgeschlagenes Lizenzie-rungsregime zur Verfügung.

„Die Leute, die »aendert alle 90 Tage euer Windowspasswort und es muss folgende Zeichen haben« kauften, kauften auch:“

Die Verwendung anderer Open Data-Datenlizenzen ist grundsätzlich möglich. Im Hinblick auf die praktische Handhabung durch die Verwaltung wären damit aber signifikante Nachteile verbunden. Diese Nachteile ergeben sich im Regelfall aus der mangelnden Abgestimmtheit auf das deutsche Urheberrecht und der vergleichsweisen Komplexität der Regelungen dieser Lizenzen.

Wie oben beschrieben: Das ist schlicht und dreist gelogen. Andere Lizenzen sind nicht weniger auf das UrhG abgestimmt, sondern die DL-DE unterschlaegt, wie sie eigentlich im Detail mit dem UrhG korrespondiert. Die notwendigerweise zugrundeliegenden Regelungen, wie die DL-DE funktioniert, sind in der Praxis nicht weniger komplex – sie sind halt einfach bei der DL-DE nirgendwo aufgeschrieben, und damit fuer juristische Laien gar nicht erst zugaenglich.

Die Verwendung ausländischer Open Data-Lizenzen kann zudem im Einzelfall ausgeschlossen sein, soweit Regelungen dieser Lizenzen mit deutschem Recht nicht vereinbar sind. Dies gilt insbesondere für die regelmäßig vorgesehenen weitgehenden Haftungsausschlüsse, selbst wenn diese unter einen Anwendungsvorbehalt gestellt sind.

Das ist natuerlich eine besonders schoene Passage – deutsches Recht fuer deutsche Daten. Naja. Wie bereits mehrfach beschrieben faellt das Argument der Nichtanwendbarkeit „auslaendischer“ Lizenzen recht schnell in sich zusammen.

Sehr witzig finde ich auch, wie in Bezug auf die problematisierten Haftungsausschluesse sofort zurueckgerudert wird. Schliesslich finden sich im Legal Code der CC folgende Passus:

„Sofern der Lizenzgeber nicht separat anderes erklärt und so weit wie möglich, bietet der Lizenzgeber das lizenzierte Material so wie es ist und verfügbar ist an […]“, oder „Dort, wo Haftungsbeschränkungen ganz oder teilweise unzulässig sind, gilt die vorliegende Beschränkung möglicherweise für Sie nicht.“

(Das wird im Abschnitt 6.1 des Gutachtens dann auch eingeraeumt. Klingt halt weniger knackig.)

Anstatt die schoen designte Broschuere voller Unsinn zu bauen, haette man einen Boilerplate-Text entwerfen, der die CC-Lizenzen durch eine Erklaerung zur moeglicherweise doch vorliegenden Haftung und im idealfall sogar fuer die passende Attribuierung bei der Verwendung durch OpenStreetMap (oder auch andere) ergaenzt. Aber vielleicht war dafuer zu wenig Geld da, oder es sollte ein vorher feststehendes Ergebnis rauskommen.

Das faellt dann auch im direkt nachfolgenden Absatz auf:

Die Vorgaben der Datenlizenzenz Deutschland 2.0 mit Namensnennung zu Namensnennung und Quellenvermerk können allerdings mit anderen Lizenzregimen kollidieren […] Hier empfehlen wir ggf. Klarstellungen durch den Bereitsteller […], etwa im Hinblick auf die Möglichkeit der Nutzung der Contributor List von OpenStreetMap, um den Nutzerinnen und Nutzernn ausreichend Rechtssicherheit zu geben.

Ach. Ich will jetzt gar nicht auf die grundsaetzliche Problematik der OSM-Datenbanklizenzierung eingehen – aber wenn die DL-DE doch so einwandfrei fuer den deutschen Open-Data-Kontext angepasst ist, warum ist sie dann nicht von Haus aus fuer die Nutzung mit OSM geeignet? Ihr habt eine Lizenz speziell fuer OSM [Korrektur:] den deutschen Rechtsraum geschaffen, die aber dann nochmal ergaenzt werden muss, damit mit die groesste existierende OSM-Community (naemlich die deutschsprachige) mit unter ihr lizenzierten Daten arbeiten kann? Was ist denn das fuer eine Kack-Anpassung? 😀

Kapitel 2: Die Ausgangslage

Spannend ist im gesamten Gutachten, wie eben auch dem Kapitel ueber die Ausgangslage, dass das Vorliegen einer Werkqualitaet im Sinne des UrhG als notwendige Voraussetzung fuer die Anwendbarkeit einer auf dem UrhG basierenden Standardlizenz sehr nonchalant unter den Tisch fallen gelassen wird. So beginnt das Kapitel mit diesem Satz:

Werden Daten der öffentlichen Verwaltung als »Open Data« veröffentlicht, werden die Nutzungs- und Verwertungsrechte der Nutzerinnen und Nutzer an diesen Daten durch Nutzungsbedingungen festgelegt. Abruf und Verwendung der Daten stehen unter dem Vorbehalt der Einhaltung dieser Nutzungsbedingungen.

Alleine der zweite Satz ist ein kleines Feuerwerk, aus dem sich sicher eine schoene Diskussion im Medienrechtsseminar drehen laesst.

Aber schon der erste Satz ist als fuer die oeffentliche Verwaltung geschriebenes Gutachten fatal. Es bleibt hier vollkommen unklar, ob es sich um ein privatrechtliches Verhaeltnis zwischen anbietender Stelle und NutzerIn handelt (und was passiert dann eigentlich, wenn die NutzerIn vertragsbruechig handelt, die Daten entgegen der Vereinbarung einfach so an mich weitergibt und ich dann beliebige Dinge damit mache?), oder ob es sich (was anzunehmen ist) um einen Standardvertrag zur Uebertragung der Verwertungs- und Vervielfaeltigungsrechte handelt, wie das eben bei anderen Open-Data-Lizenzen (oder eben auch bei Free-Software-Lizenzen) der Fall ist.

Im weiteren Verlauf wird die „Vielfalt“ der verschiedenen Open-Data-Lizenzen bemaengelt und dass das ein Problem fuer die Open-Data-Proliferation sei. An der Stelle haette man durchaus einmal innehalten und reflektieren koennen, ob diese Situation durch die Einfuehrung zweier zusaetzlicher Lizenzen, die wenn dann nur in Deutschland Anwendung finden werden, irgendwie besser werden soll, aber ich glaube ich muss im weiteren Verlauf dieses Textes vielleicht ein Clownsemoji als Sarkasmuskennzeichner einfuehren. Noch viel dummdreister wird diese Passage aber dadurch, dass sie den Text Avoiding Data Silos als Fussnote und angeblichen Beweis dieser Behauptung heranzieht. Weder behauptet dieser Text, dass die Situation durch die Einfuehrung neuer Lizenzen besser wird. Noch, und das regt mich viel mehr auf, fliessen danach die Recommendation des Texts in das „Gutachten“ ein. Dort steht naemlich unter anderem:

Clarify if data falls under the scope of copyright, database rights, or similar rights.

Nichts davon ist in der DL-DE zu finden.

Consider copyright reform if the protection status of public sector information is not clear. This may include granting positive use rights for public sector information within copyright law instead of adding many exceptions to copyright.

Nichts davon haben der IT-Planungsrat oder sonstige Gremien auf den Weg gebracht. Stattdessen reibt man sich an der hundsvermaledeiten Datenlizenz Deutschland auf. Anstatt den passenden Rechtsrahmen zu bauen, um einfach, gut und rechtssicher Open Data in Deutschland vielleicht sogar generell im Rahmen von §5 UrhG als gemeinfrei veroeffentlichen zu koennen, wird eine Sonderlocke nach der anderen gedreht, die mit nichts kompatibel und handwerklich unzulaenglich ist. Man vergleiche hierzu auch die Stellungnahme von Mathias Schindler im Bundestags-Ausschuss Digitale Agenda von 2014(!)

If data is exempt from copyright and database rights, publish clear notices that inform users about their rights to freely reuse, combine and distribute information.

Nichts davon kann die DL-DE. Danke hier an @krabina, der im Kommentar zum vorigen Post richtigerweise darauf hingewiesen hat, dass die CC 0 besser nur dann verwendet werden soll, wenn es sich um urheberrechtlich geschuetztes Material handelt, das mit Absicht freigegeben wird, und bei nicht schuetzbarem Material die Public Domain Mark verwendet werden soll. Die DL-DE hat hier eine Zero-Lizenz, die nichts erklaert und nicht klarstellt, warum da jetzt Zero draufsteht.

Recommended solutions are the public domain dedication Creative Commons Zero and the Creative Commons Attribution 4.0 licence.

Ja. Das steht im Text, der per Fussnote als Beweis der Notwendigkeit genau des Gegenteils herangezogen werden soll. Weiter will ich darauf gerade gar nicht eingehen. Der gesamte Text ist als Handlungsempfehlung deutlich besser als das pwc-Ramschgutachten.

Der Vollstaendigkeit halber sei darauf hingewiesen, dass die europaeische Kommission nun auch die Creative-Commons-Lizenzen in Version 4.0 empfiehlt, auch fuer Daten. So von wegen Vereinheitlichung.

Kapitel 5: OSM und DL-DE und Lizenzfolklore

In Kapitel 5 werden diverse offene Lizenzen angefuehrt und verglichen.

Spannenderweise wird hier (mit angegebenem Abrufdatum Herbst 2018) bei der Creative Commons unter Verweis auf Spindler/Schuster/Wiebe, „Recht der elektronischen Medien“ (3. Aufl. 2015) immer noch angefuehrt, dass die CC-Lizenzen „für mehr als 50 Länder an die nationale Rechtslage angepasst und über-setzt“ worden seien. Das Buch liegt mir leider nicht vor; wohl aber der Verdacht, dass hier Bezug auf die CC in der Version vor der international passenden 4.0 genommen wird – also noch mit der bereits mehrfach thematisierten und mittlerweile weggefallenen Portierungsproblematik.

Weiter werden die Datenbanklizenzen PDDL, ODC-By und ODbL thematisiert. Hier wird an keiner Stelle auch nur mit einer Silbe erwaehnt, dass diese Lizenzen zu Zeiten der CC 3.0 dazu dienten, das mit der CC damals nicht abgedeckte Sui-Generis-Recht fuer Datenbanken im europaeischen Rechtsraum abzudecken. Zwar werden die Nutzungsbedingungen kurz umrissen, ein Gesamtbild des Zusammenspiels der verschiedenen Lizenzen wird aber nicht aufgezeigt. Es darf die Frage gestattet sein, ob es bei den ErstellerInnen des Gutachtens vorhanden war.

Im Folgenden wird es dann echt witzig:

Die dl-de/by-2-0 unterscheidet nicht zwischen Urheberrechten und Leistungsschutzrechten. Sie ist daher sowohl auf Datenbanken i.S.d. § 87a UrhG als auch auf Werke i.S.d. § 2ff. UrhG anwendbar.

WO STEHT DAS? WIE BEKOMME ICH DAS ALS ANWENDER HERAUS???

Sorry. Kurz durchatmen.

Das ist genau der Punkt: Ich persoenlich nehme selber natuerlich an, dass die DL-DE auf dem UrhG fusst, weil ich weiss, wie andere freie Lizenzen funktionieren. Das wird aber weder denjenigen explizit gemacht, die diese Lizenz vergeben (ist sie hier ueberhaupt einschlaegig?), noch denjenigen, die so lizenzierte Daten nutzen wollen. Ich kann nur nochmal auf den als Fussnote herangezogenen Text verweisen: “Clarify if data falls under the scope of copyright, database rights, or similar rights.” – das bleibt die DL-DE schuldig.

Der Rest des Kapitels geht dann sehr ausfuehrlich darauf ein, wann wo und wie die DL-DE nicht mit der OSM kompatibel ist. Wie oben beschrieben: Seltsam, wenn sie doch angeblich eine speziell angepasste Lizenz fuer Open Data in Deutschland ist, und es OSM sowie die Datenbereitstellung fuer OSM durch die oeffentliche Hand bereits vor der Erfindung der DL-DE gab.

Haftungsunklarheiten

In Abschnitt 6.1.1 wird nun endlich die CC BY in Version 4.0 mit der DL-DE BY verglichen, und bezeichnenderweise wird beiden gleich eingangs derselbe Rechteumfang zugesprochen. Oder anders gesagt: Sie sind hier offenbar funktional identisch. Es bleibt also die Frage offen, wofuer es die DL-DE ueberhaupt braucht.

Danach wird die eingangs angerissene Haftungsproblematik angerissen. Hier wird offenbar darauf herumgeritten, dass die DL-DE von vorneherein keine Haftungsausschluesse vorsieht, waehrend die CC 4.0 „soweit anwendbar“ die Haftung ausschliesst und das am Ende wieder passt, weil das ja nicht anwendbar ist. Die Konsequenz des Gutachtens ist daraufhin:

Dies gilt allerdings nur, soweit sich auch die weitere Nutzung nach deutschem Recht richtet. Im Übrigen ist von einer Inkompatibilität auszugehen.

Von den GutachterInnen wird dadurch offenbar geflissentlich der Teilsatz „Sofern der Lizenzgeber nicht separat anderes erklärt“ im Legal Code der CC unter den Tisch fallen gelassen. Die Schlussfolgerungen verstehe ich jedenfalls ueberhaupt nicht.


An der Stelle pausiere ich die Kommentierung, weil der Zug gleich in Hamburg ankommt und mich der restliche Text aufregt. Mehr folgt.

Die Datenlizenz Deutschland gehoert auf den Muell. Jetzt.

Leider schwappt mir der Unsinn gerade wieder auf den Schreibtisch, obwohl ich eigentlich gerade eine coole Veranstaltung mitzugestalten habe. Mittlerweile ist die Geduld aber einfach am Ende.

Worum es geht: Die sogenannte Datenlizenz Deutschland. Die wurde 2013 zu unklaren Kosten als nationale Sonderloesung entwickelt und war in der ersten Version einfach vollkommen inkompatibel zu allen bestehenden Lizenzen und fuer Open Data schlicht ungeeignet, was auch direkt zu umfangreicher Kritik fuehrte. Nicht nur war sie vollkommen schwammig und unklar formuliert, sie erlaubte auch eine „Freigabe“ von Daten nur zu nichtkommerziellen Zwecken. Dieses Prinzip ist auch bei den Creative-Commons-Lizenzen hochproblematisch (und gehoert eigentlich auch abgeschafft, naja).

Auf die Kritik hin wurde im weiteren Verlauf eine Version 2.0 geschaffen, die nur mehr die Varianten Zero (Kennzeichnung als gemeinfrei bzw. in der Konsequenz der Rechtedurchsetzung damit gleichzusetzen) und obligatorische Namensnennung vorsah. Und leider wirkte die zivilgesellschaftliche Beteiligung daran, den kolossalen Unsinn der Version 1.0 geradezubiegen, wohl so, als wuerde man diesen unnoetigen nationalen Alleingang billigen. Obgleich beispielsweise die OKF ausdruecklich schreibt:

Wir haben immer, ausdrücklich und grundsätzlich von der Schaffung einer nationalen Open-Government-Data-Lizenz abgeraten und tun das auch weiterhin. Wir freuen uns zwar sehr, dass die Daten-Deutschland-Lizenz 2.0 jetzt konform mit der Open Definition ist, als Insellösung ist es aber natürlich nur die zweitbeste Lösung. Die erstbeste Lösung ist und bleibt natürlich die Verwendung der offenen Versionen der Creative Commons Lizenz.

https://okfn.de/blog/2014/09/erfolg-fuer-open-data-datenlizenz-deutschland-version-2-0-ist-eine-offene-lizenz/

Nun sind fuenf Jahre vergangen, und der langfristige Flurschaden der unnoetigen sogenannten Datenlizenz Deutschland wird deutlich. Wer beispielsweise auf govdata.de nach Datensaetzen unter DL-DE Namensnennung sucht, duerfte etwas erstaunt sein. Finden sich dort doch beispielsweise CSV-Listen von Projektstandorten. Oder Auflistungen von AbsolventInnen nach Kreisen. Oder Umsaetze von Unternehmen.

Und jetzt mal bloed gefragt: Warum genau sollte mich die Lizenz in diesen Faellen zur Nennung der Quelle verpflichten koennen? Die Creative Commons erklaeren in ihrer FAQ, dass ihre Lizenzen – genau wie Freie Softwarelizenzen – das Urheberrecht nutzen, um genau dann, wenn es sich um ein urheberrechtlich geschuetztes Werk handelt, per Standardvertrag die Nachnutzung (Verbreitung, Vervielfaeltigung, etc) explizit und unter bestimmten Bedingungen zu erlauben. Und weil das bei Creative Commons auch handwerklich gut durchdacht und gemacht ist, besteht die Lizenz aus drei Schichten: Der Kurzfassung fuer Laien, einer maschinenlesbaren Fassung, und einer ausfuehrlichen Fassung fuer JuristInnen, die auf die Details und die rechtlichen Grundlagen der Lizenz eingeht. Wer Zweifel hat, kann also in der Langfassung herausfinden, ob diese Lizenz ueberhaupt fuer einen Datensatz Anwendung finden kann, oder ob ein so lizenzierter Datensatz auch in einem angenommenen Spezialfall genutzt werden kann.

Die Datenlizenz Deutschland besteht dagegen nur aus der Kurzfassung. AnwenderInnen wird nicht klargemacht, dass die Namensnennung-Version ueberhaupt nur benutzt werden kann, wenn es sich beim zu lizenzierenden Datensatz um ein urheberrechtlich geschuetztes Werk handelt. Und so schleicht sich nun seit fuenf Jahren offenbar die Ansicht in die oeffentliche Verwaltung, dass es sich bei Datenlizenzen nicht etwa um Standard-Vertraege auf Basis des Urheberrechts handelt, sondern um magische Zaubersprueche, die man ohne weitere Grundlage einfach so nur aussprechen muss, und dann muss jemand einen Herausgebernamen nennen. Das ist halt einfach Quatsch.

Unterstuetzt wird die Datenlizenz derzeit vor allem noch durch ein vom Land NRW in Auftrag gegebenes, von PWC erstelltes „Rechtliches Kurzgutachten“ vom Februar 2019, bei dem ich mich frage, ob daran wirklich JuristInnen beteiligt waren – und wenn ja, ob sie sich je zuvor mit Freien Lizenzen befasst haben. Aber das wird wohl demnaechst ein weiterer Blogpost werden muessen.

TL;DR: Die Datenlizenz Deutschland ist handwerklich schlecht gemacht. Sie haelt die oeffentliche Verwaltung in einem halbinformierten Zustand und sorgt reihenweise zu Schutzrechtsberuehmungen. Sie hat seit der Creative Commons 4.0 keine Daseinsberechtigung mehr und gehoert ersatzlos gestrichen.

Werkzeugkiste

Mal wieder ein Open-Data-Rundumschlag: den Einsteig macht ein Interview der bpb mit Marian Steinbach, der auf der rp13 seine Bemuehungen vorstellte, die Datenformate von Ratsinformationssystemen zu standardisieren. Ueberraschenderweise machen hier die RIS-Anbieter richtig Dampf, man darf gespannt sein – nicht zuletzt, weil auch Ulm hier etwas anbieten moechte – und somit irgendwann auch fuer Ulm ein Angebot wie offeneskoeln moeglich sein koennte.

Aus Koeln kommen auch einige Wunschlisten, was man sich denn gerne so alles wuenschen wuerde: Einmal eine Open-Data-Wunschliste fuer NRW, einmal die Variante fuer die Stadt Koeln.

In Muenchen scheint das Engagement derweil eingeschlafen zu sein und sich gar nichts mehr zu tun – was Roland Moriz so geaergert hat, dass er ein Blog eingerichtet hat und nun nach MitstreiterInnen sucht.

 ♦

Oft ist das Problem ja nicht einmal, dass Daten gar nicht verfuegbar waeren, sondern dass sie in irgendwelchen PDFs versteckt sind. Noch schlimmer ist, wenn das PDF-Tabellen sind, da wird dann selbst das Parsing mit pdftotext… anstrengend.

Bildschirmfoto vom 2013-05-17 18:50:01

Introducing: Tabula. Die freie Software kann einfach von Github gezogen und lokal installiert werden – danach koennen beliebige PDFs hochgeladen und die zu parsenden Tabellen per Drag and Drop ausgewaehlt werden. Poof: Eine CSV-Tabelle! Hurra!

Eine Livedemo (bei der man aber nichts eigenes hochladen kann) gibt es hier.

Weitere PDF-Exporter neben tabula und pdftotext – insbesondere auch fuer Windows-Systeme – sind nebenan bei der Knight Foundation gesammelt.

 ♦

Nachdem’s hier schon lange nix mehr zu Geodaten und Karten gab, und R auch nicht jedermanns Sache ist, hier der Verweis auf Lisa Williams‘ Blog, speziell auf die zwei Artikel The Insanely Illustrated Guide To Your First Data-Driven TileMill Map und The Absurdly Illustrated Guide To Your First Dynamic, Data-Driven Timeline.

Beide Artikel sind in der Tat wahnsinnig absurd hervorragend bebildert und zeigen den kompletten Weg zum fertigen Produkt – im Fall der Karte also tatsaechlich von der Datenakquise ueber eigene Geocoding-Scripte in Google Docs (sic!) bis hin zur angepassten TileMill-Karte. Sehr schoen!

(Wer Spanisch kann, kann solcherlei Dinge auch im neuen MOOC der Knight Foundation lernen, der aktuell stattfindet)

 ♦

Wer trotzdem gerne mit R arbeiten moechte: Da gibts nun eine neue Version des OpenStreetMap-Packages, das nun auch jede Menge zusaetzlicher Tileserver unterstuetzt. Einziger Nachteil: Hat Java-Dependencies.

(via)

 ♦

Noch ein Kartenfundstueck: Die ÖPNVKARTE nutzt die OpenStreetMap-Daten, um eine um Nahverkehrsdaten angereicherte Karte auszugeben. Huebsch.

 ♦

Tiaga Peixoto stellt die Frage, ob „Open Government“ ueberhaupt etwas mit Transparenz und vor allem Rechenschaftspflicht zu tun haben muss:

ABSTRACT

By looking at the nature of data that may be disclosed by governments, Harlan Yu and David Robinson provide an analytical framework that evinces the ambiguities underlying the term “open government data.” While agreeing with their core analysis, I contend that the authors ignore the enabling conditions under which transparency may lead to accountability, notably the publicity and political agency conditions. I argue that the authors also overlook the role of participatory mechanisms as an essential element in unlocking the potential for open data to produce better government decisions and policies. Finally, I conduct an empirical analysis of the publicity and political agency conditions in countries that have launched open data efforts, highlighting the challenges associated with open data as a path to accountability.

[…] CONCLUSION

As a whole, this analysis advises caution on the part of policymakers and advocates with regard to the potential of open data to foster accountability. Even when data is politically important, accounting for the publicity and political agency conditions might be a commendable reflection for a better understanding of the prospects and limits of open data.

PEIXOTO, Tiago. The Uncertain Relationship Between Open Data and Accountability: A Response to Yu and Robinson’s The New Ambiguity of “Open Government”. DISCOURSE, 2013, 60. Jg., Nr. 6.

(via)

In eine aehnliche Richtung geht auch dieser DLF-Bericht u.a. mit Ina Schieferdecker, Michael Kreil et al.

(via)

Und zum Schluss noch ein wenig Urheberrecht. Denny Vrandečić (u.a. von Wikidata) exkursiert eine Weile ueber Lizenzfragen bei Daten(banken) und kommt zu dem Schluss, dass mensch hier bei der Veroeffentlichung allenfalls CC0 als „Lizenz“ verwenden sollte – mit dem Argument dass, wer CC-BY oder ODbL verwendet, die Position staerkt, dass rohe Daten ueberhaupt schutzfaehig im Sinne des Urheberrechts sind:

The extension from works to content, from expression to ideas, is another dimension, this time in scope instead of time, in the continuous struggle to extend and expand intellectual property rights. It is not just a battle over the laws, but also, and more importantly, over our believes and minds, to make us more accepting towards the notion that ideas and knowledge belong to companies and individuals, and are not part of our commons.

Every time data is published under a restrictive license, “they” have managed to conquer another strategic piece of territory. Restrictive in this case includes CC-BY, CC-BY-SA, CC-BY-NC, GFDL, ODBL, and (god forbid!) CC-BY-SA-NC-ND, and many other such licenses.

Every time you wonder what license some data has that you want to use, or whether you need to ask the data publisher if you can use it, “they” have won another battle.

Every time you integrate two data sources and want to publish the results, and start to wonder how to fulfill your legal obligation towards the original dataset publishers, “they” laugh and welcome you as a member of their fifth column.

Let them win, and some day you will be sued for mentioning a number.

(via @johl)

Open-Data-Links (hauptsaechlich)

OpenData und Co

datascience

Introduction to Data Science mag ich heute besonders hervorheben, weil es ein komplettes Buch rund um Datenauswertung mit R ist, und weil es frei ist (cc-by-nc-sa).
Es beginnt mit einer kleinen Einfuehrung, was ueberhaupt Daten sind, und warum der Autor das kommandozeilenorientierte R statt Excel und Co verwendet (einen Aufsatz ueber die Verbreitung und damit einhergehende Gefaehrlichkeit von Excel gibt es hier, via @343max/@hulalena), fuehrt in kleinen Schritten ueber Data Frames auf statistische Grundlagen wie Quantile, Histogramme und Signifikanz hin, bevor es mit R Studio dann doch klickibunti benutzerfreundlicher wird, um Twitter und Texte zu analysieren, Daten zu speichern und (mein Lieblingsthema! :D) Karten zu bauen.
Alle Beispiele sind aus der Praxis gezogen und ersetzen zwar mit Sicherheit keine tiefere Beschaeftigung mit statistischen Methoden, eignen sich aber wunderbar als Einfuehrung und Appetitmacher auf mehr. Leseempfehlung!

Ausserdem:

API

Unterhaltung

  • Stenocast, Folge 0/1 / stenocast.de — Herr Urbach und Co. lesen alte Plenarprotokolle der Bonner Republik. Arbeitstitel: „Too old, didn’t read“.
  • The Importance of Excel — ob das so unterhaltend ist, sei mal dahingestellt: Warum Excel so weit verbreitet ist, ueberall benutzt wird — und welche Konsequenzen das hat (nochmal aufgegriffen von oben)
  • The Robbers Cave Experiment — Wie Sozialpsychologen einfach mal zwei sommercampende Kindergruppen aufeinander treffen liessen um herauszufinden, was man braucht, damit die sich bekriegen. Aufloesung: Gar nix weiter. (via erlehmann und plom)
  • Traumatische Momente im Kinderfilm — die 50 verstoerendsten Kinderfilmszenen, von den Geisterelefanten bei Dumbo bis — natuerlich — zu Bambis Mutter. (via/@leitmedium)

OpenCityCamp, eine Woche danach

Muede

Eine Woche nach dem OpenCityCamp sind wir nun hinreichend ausgeschlafen, um nicht nur fuer Tag 1, sondern fuer das gesamte OCC ein Resuemee ziehen zu koennen.
Letzten Sonntag wie Montag ging das nicht mehr, weil Schlafmangel und Abbau ihren Tribut forderten, Dienstag und Mittwoch waren Termine — und nicht zuletzt stehen seit dem OCC wieder einige Teilprojekte mehr auf dem Plan. Spaeter mehr hierzu.

Nach Durchzaehlen der zurueckgelaufenen Namensschilder koennen wir auch stolz verkuenden, dass Samstag und Sonntag knapp 50 verschiedene TeilnehmerInnen im O28 waren — und das ohne die spontanen HelferInnen aus dem BECI, die einfach so immer wieder mal ausgeholfen haben (danke hierfuer!). Die Bandbreite reichte von — natuerlich — Studierenden ueber Doktoranden und ProfessorInnen aus Koblenz, Friedrichshafen und Ulm; es waren MitarbeiterInnen der Stadt, des Innenministeriums Baden-Wuerttemberg, der MFG, der TSU und des Buergernetzes zugegen; und bevor ich „Pirat^w Jehova“ schreibe, lassen wir es bei einem allgemeinen „politisch Interessierte“. Aus mehr als einer Partei uebrigens.

Wuenschewand

Wuenschewand

Der Wunsch, die Haushaltsdaten der Stadt noch auf dem Camp aufzubereiten, um es bei OpenSpending eintragen zu koennen, blieb vorerst unerfuellt. Erst war das Opendata-Landesportal bis Sonntag abend down, und dann durften wir uns mit bislang unbekannten Welten herumschlagen. Wie ist das denn bei der doppischen Buchfuehrung (auf die Ulm, frueher als die meisten anderen Kommunen in BaWue, bereits 2011 umgestellt hat)? Als Anhaltspunkt diente der Haushalt der Stadt Frankfurt samt der Beschreibungsseite des Frankfurt Open Data Day, und damit war schon einmal klar, dass mindestens ein Drilldown nach Produktgruppe und Produktbereich gemaess Anlage 8 des umfangreichen PDF-Haushaltsdokuments moeglich sein sollte. Teilhaushalte waeren auch schoen. Schauen wir mal.

Anekdotisch: Auf Bundesebene ist es immer noch ein Kampf, ueberhaupt an maschinenlesbare Daten zu kommen. Wir haben dagegen das Problem, zwar die Daten zu haben, dafuer aber die VwV Doppik nicht gut genug zu kennen, um mehr als educated guesses abzugeben. Ein rudimentaeres Perl-Script zur Aufarbeitung der Rohdaten aus dem OpenData-Portal gibt es bei github. Wir warten derweil auf Feedback der Zentralen Steuerung Finanzen der Stadt, mit dem wir uns am Freitag zum kurzen Austausch treffen. Um sie im naechsten Durchlauf mit der UN-COFOG-Schluesselliste zu schocken 😀

Zweiter Tag: Kleinere Runden

Datenethik

Generell war der zweite Tag von vielen kleinen Sessions gepraegt, immer parallel zu Hackereien im H21. Es ging um Informationsfreiheitsgesetze und -ordnungen als rechtliche Grundlage fuer offene Daten und transparentes Regierungshandeln, Exkurse in den Datenschutz und ethische Fragestellungen, aber auch Hands-on-Sessions rund um Ideensammlung, Einfuehrungen in die UlmAPI-Schnittstelle, Hackspaces in Ulm &c.

Twittert meer

Das Problem dieser Vielfalt: Wir haben nicht einmal die Projekte, die als „interessant“ markiert auf Halde lagen, abgearbeitet, sondern vielmehr noch viel mehr Projektideen in alle Richtungen gefunden. Was einerseits prima ist, andererseits aber einfach noch mehr Arbeit bedeutet 😉 Am Haushalt sind wir dran, die EBU-Entsorgungskarte wartet noch auf HackerInnen, die sie implementieren, gestern haben wir uns stundenlang mit Plots der StuVe-Verkehrsumfrage beschaeftigt…

…und nicht zuletzt Freifunk. Jede Menge Freifunk. Das schien fuer viele das faszinierendste Hack-Thema zu sein. Vorschueb duerfte vermutlich auch die inhaltlich eher ruehrige „Im Namen des Volkes“-Aktion des SpaZz geleistet haben, die „kostenloses WLAN in Ulm“ forderte. Auf dem Camp ging es dann eher um freies WLAN, und vor allem auch mit technischer Expertise 😉
Abends wurde noch das IPv6-basierende Mesh-Netz durch die Uni gespannt und getestet — der aktuelle Status wird in diesem Pad festgehalten.

Freifunk-Test

Was bleibt: Viel Inspiration. Viel Arbeit. Ein wenigBedauern, dass keine(!) GemeinderaetInnen anwesend waren. Lust auf mehr.

Hoersaalhacking

Und vor allem: Sehr viel Dankbarkeit. Der Stadt Ulm in Person von Buergermeister Czisch, die grosszuegig die Mittagsverpflegung uebernahm. Der MFG Innovationsagentur fuer das Hauptsponsoring von Fruehstueck ueber Getraenke bis Apfelkuchenmaterial und Konferenzbedarf. Dem kiz fuer die WLAN-Bereitstellung und den Propagandadruck. Und allen Beteiligten bei Aufbau, Durchfuehrung und Abbau:

Danke 🙂

Linkschau

Ergaenzungen

Eins.

Im Originalartikel zur Netzpolitik-Soiree war Jens Bests Fragenueberfall nur eine Randnotiz, die Kommentarspalte ist jetzt aber die vermutlich laengste, die es jemals hier geben wird, und ich moechte ganz ausdruecklich noch einmal auf sie hinweisen. Jetzt ist mir ein wenig klarer, worauf Jens eigentlich hinaus wollte — letztlich duerfte das Ziel sein, Aengste und Vorurteile abzubauen.

Zwei.

Das Problem scheint mir, dass man allzuleicht versucht ist, diese — auf Un- und Halbwissen basierenden — Aengste mit „Nicht-Netz-Menschen“ zu verbinden. Vergessen werden dabei all diejenigen, die zwar im Netz unterwegs sind, aber keine wesentliche Ahnung von der Materie haben. „Internetausdrucker“ ist da auch wieder so ein furchtbarer Begriff, damals im Usenet waren es die AOL-Nutzer, und morgen gibt’s den naechsten abwertenden Begriff. Wir brauchen eine Integrationsdebatte, heisst es dagegen bei Torsten Kleinz, und er hat voll und ganz Recht. Vom Gros der Lehrer kann die vielbeschworene Medienkompetenz nicht kommen — warum kuemmern wir uns aber nicht selber darueber, anstatt nur herablassend zu laestern? Leseempfehlung, und bitte mitdiskutieren. Aehnliches gab es vor einer Weile schon bei Enno Park.

Drei.

Bei der Diskussion mit Jens hatte ich einen Flashback. Eine aehnliche Diskussion nach dem Motto „wozu ueberhaupt noch Datenschutz“ gab es schon im Fruehjahr bei qrios im Blog — leider mit meines Erachtens viel zu wenig Diskussionsbeteiligung. Sollte man eigentlich noch einmal aufgreifen, finde ich.

Vier (zuerst vergessen, also Ergaenzungs-Ergaenzung).

Nach Inspektion meines Buchregals war Wlada der Ansicht, ich habe einen aehnlichen Literaturgeschmack wie ihr Chef und hat sich Free Culture ausgeliehen, was ich gleichermassen unerwartet wie verdammt cool fand. Womit die maximal nonchalant-prahlerische Ueberleitung zu Dirk von Gehlen geschafft waere, der auch noch etwas zur Lobo./.Weiss-Debatte schrieb, was ich zuerst uebersehen hatte.

SWU-Daten: Es geht voran

SWU-01

Die Aktion mit den Gruenen-Mails hat offenbar doch noch einen positiven Nebeneffekt: Ich habe den Verschicker in seiner Eigenschaft als SWU-Beirat gebeten, doch nochmal nachzuhaken, ob es nicht doch irgendwann eine API fuer die RBL-Echtzeitdaten geben wuerde. Die Rueckfrage seitens der SWU, was so eine API denn kosten wuerde, konnte ich natuerlich nich tzufriedenstellend beantworten — ich freue mich aber, dass das Thema langsam Gehoer zu finden scheint.

Bis dahin gibt es die leider etwas ungenauen, aus der Fahrplanauskunft geparsten Daten ueber die Selbststrick-API von Taxilof, und als Beispiel-Mobilanwendung fuer Mobilgeraete die Auskunft von Claus.

SWU-Daten befreit :D

Ich liebe das Internet :) Taxilof hat eine API gestrickt, um die ansonsten versteckten SWU-Livedaten auszulesen und weiterverarbeiten zu koennen. Heisst momentan zutreffenderweise api_bad und funktioniert sogar — also reinhauen und basteln, Stammverzeichnis hier.

Semesterticketreferent Finn hat aber auch schon angekuendigt, mitschubsen zu wollen, und laut der Ubicomp-Betreuer kann da gerne auch mal das Dekanat die SWU anschubsen. Vielleicht gibts dann bald sogar eine “offizielle” API. Fein :)

Befreit die Daten!

Ich habe mich schon vor zwei Jahren sehr ueber die Stadtwerke Ulm (SWU) aufgeregt, und gerade war mir danach, es wieder zu tun. Und zwar aus demselben Grund.

Von 2001 bis 2004 haben die SWU naemlich an einem Foerderprojekt des BMWI namens “RUDY” teilgenommen. Ich kann mich noch gut an die Busbeklebung zu RUDY erinnern, und dass ich keine Ahnung hatte, was das sollte. Irgendwie lief es wohl auf die MobilSAM-Sammeltaxen hinaus, die abends in den Vororten die Busse ersetzen, die man aber vorbestellen muss und die nach 2000 Uhr 50 Cent extra kosten, auch wenn man schon eine Fahrkarte hat. Eine Sammeltaxe habe ich vor ein paar Wochen zum ersten Mal benutzt, und so schnell werde ich das wohl auch nicht mehr tun, weil ich wegen der 50 Cent eingeschnappt war, von denen am Telefon niemand etwas gesagt hatte. (Manchmal bin ich nachtragend.)

Eine herausragende RUDY-Innovation ist aber wirklich toll,  naemlich die Fahrgastinformationssysteme, die an mittlerweile ziemlich vielen oft bedienten Haltestellen anzufinden sind, und die einem verraten, wann der naechste Bus oder die naechste Tram kommt. Und zur WM und EM kamen abends auch immer die Fussballergebnisse in einem Ticker ganz unten.

Jetzt bringt einem diese Anzeige nur etwas, wenn man tatsaechlich an der Haltestelle steht. Vorausgesetzt, die Haltestelle hat so eine Anzeige. Alternativ gab es ein furchtbares AJAX-Applet auf der SWU-Verkehr-Website, mit dem man durch lediglich 25 Mausklicks die GPS-gestuetzten Live-Abfahrtzeiten genau einer Linie an genau einer Haltestelle anzeigen lassen konnte. Imperfekt, wohlgemerkt, denn dieses Dings gibt es nicht mehr nur noch ueber Umwege bei ding.eu, mittlerweile offenbar sogar fuer mehrere Linien. Es gibt aber nach wie vor keine einzige Moeglichkeit, diese Daten irgendwie offiziell extern auszuwerten, obwohl die Moeglichkeiten so vielfaeltig waeren. Ein Browserplugin beispielsweise, das mir an der Uni die Abfahrtzeiten der Linie 3 anzeigt, und mich bei Bedarf fuenf Minuten vorher auf den naechsten Bus Richtung Mitte aufmerksam macht. Eine Mobilapplikation, die mir GPS-gestuetzt die naechste Haltestelle mit allen Daten anzeigt, oder meine “Lieblingshaltestellen”. Oder einfach die Emulation der FIS-Anzeigen einer bestimmten Haltestelle in der Naehe, die man dann auf einem Bildschirm in der Lobby eines Buerogebaeudes oder in der Uni-Cafete anzeigt.

Die SWU muessten dazu nichts selber entwickeln. Sie muessten nur eine Schnittstelle anbieten, ueber die man auf die Livedaten zugreifen kann, und dann die Schwarmintelligenz arbeiten lassen. Das wollen die SWU aber nicht. Betriebsdaten stelle man Dritten grundsaetzlich nicht zur Verfuegung, hiess es schon 2007. Stattdessen moege man doch einfach die Fahrplaene bemuehen, oder die Fahrplanauskunft des Handyticket.

Ich halte das fuer eine bodenlose Arroganz und Frechheit. RUDY wurde vom BMWI mit ueber 3,6 Millionen EUR aus oeffentlichen Mitteln gefoerdert. Und nur, weil man den Kunden zur Nutzung des eigenen Produkts “Handyticket” zwingen will, weigert man sich, die vorhandenen Echtzeitdaten so aufzubereiten, dass man daraus etwas basteln kann. Das darf nicht sein.

Ich habe heute wieder ein wenig recherchiert, ob es irgendein bundesweites Buendnis zur Befreiung von Daten und Einrichtung von APIs gibt. Bislang bin ich nicht fuendig geworden. Aber irgendwie wurde heute der Querulant in mir wieder geweckt und ich habe beschlossen, gegenueber den SWU und der Stadt Ulm mal so eine richtige Nervensaege zu sein, bis ich eine zufriedenstellende Antwort habe. Wer sich anschliessen moechte, melde sich in den Kommentaren.