Schlagwort-Archive: Freie Daten

Werkzeugkiste

Mal wieder ein Open-Data-Rundumschlag: den Einsteig macht ein Interview der bpb mit Marian Steinbach, der auf der rp13 seine Bemuehungen vorstellte, die Datenformate von Ratsinformationssystemen zu standardisieren. Ueberraschenderweise machen hier die RIS-Anbieter richtig Dampf, man darf gespannt sein – nicht zuletzt, weil auch Ulm hier etwas anbieten moechte – und somit irgendwann auch fuer Ulm ein Angebot wie offeneskoeln moeglich sein koennte.

Aus Koeln kommen auch einige Wunschlisten, was man sich denn gerne so alles wuenschen wuerde: Einmal eine Open-Data-Wunschliste fuer NRW, einmal die Variante fuer die Stadt Koeln.

In Muenchen scheint das Engagement derweil eingeschlafen zu sein und sich gar nichts mehr zu tun – was Roland Moriz so geaergert hat, dass er ein Blog eingerichtet hat und nun nach MitstreiterInnen sucht.

 ♦

Oft ist das Problem ja nicht einmal, dass Daten gar nicht verfuegbar waeren, sondern dass sie in irgendwelchen PDFs versteckt sind. Noch schlimmer ist, wenn das PDF-Tabellen sind, da wird dann selbst das Parsing mit pdftotext… anstrengend.

Bildschirmfoto vom 2013-05-17 18:50:01

Introducing: Tabula. Die freie Software kann einfach von Github gezogen und lokal installiert werden – danach koennen beliebige PDFs hochgeladen und die zu parsenden Tabellen per Drag and Drop ausgewaehlt werden. Poof: Eine CSV-Tabelle! Hurra!

Eine Livedemo (bei der man aber nichts eigenes hochladen kann) gibt es hier.

Weitere PDF-Exporter neben tabula und pdftotext – insbesondere auch fuer Windows-Systeme – sind nebenan bei der Knight Foundation gesammelt.

 ♦

Nachdem’s hier schon lange nix mehr zu Geodaten und Karten gab, und R auch nicht jedermanns Sache ist, hier der Verweis auf Lisa Williams‘ Blog, speziell auf die zwei Artikel The Insanely Illustrated Guide To Your First Data-Driven TileMill Map und The Absurdly Illustrated Guide To Your First Dynamic, Data-Driven Timeline.

Beide Artikel sind in der Tat wahnsinnig absurd hervorragend bebildert und zeigen den kompletten Weg zum fertigen Produkt – im Fall der Karte also tatsaechlich von der Datenakquise ueber eigene Geocoding-Scripte in Google Docs (sic!) bis hin zur angepassten TileMill-Karte. Sehr schoen!

(Wer Spanisch kann, kann solcherlei Dinge auch im neuen MOOC der Knight Foundation lernen, der aktuell stattfindet)

 ♦

Wer trotzdem gerne mit R arbeiten moechte: Da gibts nun eine neue Version des OpenStreetMap-Packages, das nun auch jede Menge zusaetzlicher Tileserver unterstuetzt. Einziger Nachteil: Hat Java-Dependencies.

(via)

 ♦

Noch ein Kartenfundstueck: Die ÖPNVKARTE nutzt die OpenStreetMap-Daten, um eine um Nahverkehrsdaten angereicherte Karte auszugeben. Huebsch.

 ♦

Tiaga Peixoto stellt die Frage, ob „Open Government“ ueberhaupt etwas mit Transparenz und vor allem Rechenschaftspflicht zu tun haben muss:

ABSTRACT

By looking at the nature of data that may be disclosed by governments, Harlan Yu and David Robinson provide an analytical framework that evinces the ambiguities underlying the term “open government data.” While agreeing with their core analysis, I contend that the authors ignore the enabling conditions under which transparency may lead to accountability, notably the publicity and political agency conditions. I argue that the authors also overlook the role of participatory mechanisms as an essential element in unlocking the potential for open data to produce better government decisions and policies. Finally, I conduct an empirical analysis of the publicity and political agency conditions in countries that have launched open data efforts, highlighting the challenges associated with open data as a path to accountability.

[…] CONCLUSION

As a whole, this analysis advises caution on the part of policymakers and advocates with regard to the potential of open data to foster accountability. Even when data is politically important, accounting for the publicity and political agency conditions might be a commendable reflection for a better understanding of the prospects and limits of open data.

PEIXOTO, Tiago. The Uncertain Relationship Between Open Data and Accountability: A Response to Yu and Robinson’s The New Ambiguity of “Open Government”. DISCOURSE, 2013, 60. Jg., Nr. 6.

(via)

In eine aehnliche Richtung geht auch dieser DLF-Bericht u.a. mit Ina Schieferdecker, Michael Kreil et al.

(via)

Und zum Schluss noch ein wenig Urheberrecht. Denny Vrandečić (u.a. von Wikidata) exkursiert eine Weile ueber Lizenzfragen bei Daten(banken) und kommt zu dem Schluss, dass mensch hier bei der Veroeffentlichung allenfalls CC0 als „Lizenz“ verwenden sollte – mit dem Argument dass, wer CC-BY oder ODbL verwendet, die Position staerkt, dass rohe Daten ueberhaupt schutzfaehig im Sinne des Urheberrechts sind:

The extension from works to content, from expression to ideas, is another dimension, this time in scope instead of time, in the continuous struggle to extend and expand intellectual property rights. It is not just a battle over the laws, but also, and more importantly, over our believes and minds, to make us more accepting towards the notion that ideas and knowledge belong to companies and individuals, and are not part of our commons.

Every time data is published under a restrictive license, “they” have managed to conquer another strategic piece of territory. Restrictive in this case includes CC-BY, CC-BY-SA, CC-BY-NC, GFDL, ODBL, and (god forbid!) CC-BY-SA-NC-ND, and many other such licenses.

Every time you wonder what license some data has that you want to use, or whether you need to ask the data publisher if you can use it, “they” have won another battle.

Every time you integrate two data sources and want to publish the results, and start to wonder how to fulfill your legal obligation towards the original dataset publishers, “they” laugh and welcome you as a member of their fifth column.

Let them win, and some day you will be sued for mentioning a number.

(via @johl)

Open-Data-Links (hauptsaechlich)

OpenData und Co

datascience

Introduction to Data Science mag ich heute besonders hervorheben, weil es ein komplettes Buch rund um Datenauswertung mit R ist, und weil es frei ist (cc-by-nc-sa).
Es beginnt mit einer kleinen Einfuehrung, was ueberhaupt Daten sind, und warum der Autor das kommandozeilenorientierte R statt Excel und Co verwendet (einen Aufsatz ueber die Verbreitung und damit einhergehende Gefaehrlichkeit von Excel gibt es hier, via @343max/@hulalena), fuehrt in kleinen Schritten ueber Data Frames auf statistische Grundlagen wie Quantile, Histogramme und Signifikanz hin, bevor es mit R Studio dann doch klickibunti benutzerfreundlicher wird, um Twitter und Texte zu analysieren, Daten zu speichern und (mein Lieblingsthema! :D) Karten zu bauen.
Alle Beispiele sind aus der Praxis gezogen und ersetzen zwar mit Sicherheit keine tiefere Beschaeftigung mit statistischen Methoden, eignen sich aber wunderbar als Einfuehrung und Appetitmacher auf mehr. Leseempfehlung!

Ausserdem:

API

Unterhaltung

  • Stenocast, Folge 0/1 / stenocast.de — Herr Urbach und Co. lesen alte Plenarprotokolle der Bonner Republik. Arbeitstitel: „Too old, didn’t read“.
  • The Importance of Excel — ob das so unterhaltend ist, sei mal dahingestellt: Warum Excel so weit verbreitet ist, ueberall benutzt wird — und welche Konsequenzen das hat (nochmal aufgegriffen von oben)
  • The Robbers Cave Experiment — Wie Sozialpsychologen einfach mal zwei sommercampende Kindergruppen aufeinander treffen liessen um herauszufinden, was man braucht, damit die sich bekriegen. Aufloesung: Gar nix weiter. (via erlehmann und plom)
  • Traumatische Momente im Kinderfilm — die 50 verstoerendsten Kinderfilmszenen, von den Geisterelefanten bei Dumbo bis — natuerlich — zu Bambis Mutter. (via/@leitmedium)

OpenCityCamp, eine Woche danach

Muede

Eine Woche nach dem OpenCityCamp sind wir nun hinreichend ausgeschlafen, um nicht nur fuer Tag 1, sondern fuer das gesamte OCC ein Resuemee ziehen zu koennen.
Letzten Sonntag wie Montag ging das nicht mehr, weil Schlafmangel und Abbau ihren Tribut forderten, Dienstag und Mittwoch waren Termine — und nicht zuletzt stehen seit dem OCC wieder einige Teilprojekte mehr auf dem Plan. Spaeter mehr hierzu.

Nach Durchzaehlen der zurueckgelaufenen Namensschilder koennen wir auch stolz verkuenden, dass Samstag und Sonntag knapp 50 verschiedene TeilnehmerInnen im O28 waren — und das ohne die spontanen HelferInnen aus dem BECI, die einfach so immer wieder mal ausgeholfen haben (danke hierfuer!). Die Bandbreite reichte von — natuerlich — Studierenden ueber Doktoranden und ProfessorInnen aus Koblenz, Friedrichshafen und Ulm; es waren MitarbeiterInnen der Stadt, des Innenministeriums Baden-Wuerttemberg, der MFG, der TSU und des Buergernetzes zugegen; und bevor ich „Pirat^w Jehova“ schreibe, lassen wir es bei einem allgemeinen „politisch Interessierte“. Aus mehr als einer Partei uebrigens.

Wuenschewand

Wuenschewand

Der Wunsch, die Haushaltsdaten der Stadt noch auf dem Camp aufzubereiten, um es bei OpenSpending eintragen zu koennen, blieb vorerst unerfuellt. Erst war das Opendata-Landesportal bis Sonntag abend down, und dann durften wir uns mit bislang unbekannten Welten herumschlagen. Wie ist das denn bei der doppischen Buchfuehrung (auf die Ulm, frueher als die meisten anderen Kommunen in BaWue, bereits 2011 umgestellt hat)? Als Anhaltspunkt diente der Haushalt der Stadt Frankfurt samt der Beschreibungsseite des Frankfurt Open Data Day, und damit war schon einmal klar, dass mindestens ein Drilldown nach Produktgruppe und Produktbereich gemaess Anlage 8 des umfangreichen PDF-Haushaltsdokuments moeglich sein sollte. Teilhaushalte waeren auch schoen. Schauen wir mal.

Anekdotisch: Auf Bundesebene ist es immer noch ein Kampf, ueberhaupt an maschinenlesbare Daten zu kommen. Wir haben dagegen das Problem, zwar die Daten zu haben, dafuer aber die VwV Doppik nicht gut genug zu kennen, um mehr als educated guesses abzugeben. Ein rudimentaeres Perl-Script zur Aufarbeitung der Rohdaten aus dem OpenData-Portal gibt es bei github. Wir warten derweil auf Feedback der Zentralen Steuerung Finanzen der Stadt, mit dem wir uns am Freitag zum kurzen Austausch treffen. Um sie im naechsten Durchlauf mit der UN-COFOG-Schluesselliste zu schocken 😀

Zweiter Tag: Kleinere Runden

Datenethik

Generell war der zweite Tag von vielen kleinen Sessions gepraegt, immer parallel zu Hackereien im H21. Es ging um Informationsfreiheitsgesetze und -ordnungen als rechtliche Grundlage fuer offene Daten und transparentes Regierungshandeln, Exkurse in den Datenschutz und ethische Fragestellungen, aber auch Hands-on-Sessions rund um Ideensammlung, Einfuehrungen in die UlmAPI-Schnittstelle, Hackspaces in Ulm &c.

Twittert meer

Das Problem dieser Vielfalt: Wir haben nicht einmal die Projekte, die als „interessant“ markiert auf Halde lagen, abgearbeitet, sondern vielmehr noch viel mehr Projektideen in alle Richtungen gefunden. Was einerseits prima ist, andererseits aber einfach noch mehr Arbeit bedeutet 😉 Am Haushalt sind wir dran, die EBU-Entsorgungskarte wartet noch auf HackerInnen, die sie implementieren, gestern haben wir uns stundenlang mit Plots der StuVe-Verkehrsumfrage beschaeftigt…

…und nicht zuletzt Freifunk. Jede Menge Freifunk. Das schien fuer viele das faszinierendste Hack-Thema zu sein. Vorschueb duerfte vermutlich auch die inhaltlich eher ruehrige „Im Namen des Volkes“-Aktion des SpaZz geleistet haben, die „kostenloses WLAN in Ulm“ forderte. Auf dem Camp ging es dann eher um freies WLAN, und vor allem auch mit technischer Expertise 😉
Abends wurde noch das IPv6-basierende Mesh-Netz durch die Uni gespannt und getestet — der aktuelle Status wird in diesem Pad festgehalten.

Freifunk-Test

Was bleibt: Viel Inspiration. Viel Arbeit. Ein wenigBedauern, dass keine(!) GemeinderaetInnen anwesend waren. Lust auf mehr.

Hoersaalhacking

Und vor allem: Sehr viel Dankbarkeit. Der Stadt Ulm in Person von Buergermeister Czisch, die grosszuegig die Mittagsverpflegung uebernahm. Der MFG Innovationsagentur fuer das Hauptsponsoring von Fruehstueck ueber Getraenke bis Apfelkuchenmaterial und Konferenzbedarf. Dem kiz fuer die WLAN-Bereitstellung und den Propagandadruck. Und allen Beteiligten bei Aufbau, Durchfuehrung und Abbau:

Danke 🙂

Linkschau

Ergaenzungen

Eins.

Im Originalartikel zur Netzpolitik-Soiree war Jens Bests Fragenueberfall nur eine Randnotiz, die Kommentarspalte ist jetzt aber die vermutlich laengste, die es jemals hier geben wird, und ich moechte ganz ausdruecklich noch einmal auf sie hinweisen. Jetzt ist mir ein wenig klarer, worauf Jens eigentlich hinaus wollte — letztlich duerfte das Ziel sein, Aengste und Vorurteile abzubauen.

Zwei.

Das Problem scheint mir, dass man allzuleicht versucht ist, diese — auf Un- und Halbwissen basierenden — Aengste mit „Nicht-Netz-Menschen“ zu verbinden. Vergessen werden dabei all diejenigen, die zwar im Netz unterwegs sind, aber keine wesentliche Ahnung von der Materie haben. „Internetausdrucker“ ist da auch wieder so ein furchtbarer Begriff, damals im Usenet waren es die AOL-Nutzer, und morgen gibt’s den naechsten abwertenden Begriff. Wir brauchen eine Integrationsdebatte, heisst es dagegen bei Torsten Kleinz, und er hat voll und ganz Recht. Vom Gros der Lehrer kann die vielbeschworene Medienkompetenz nicht kommen — warum kuemmern wir uns aber nicht selber darueber, anstatt nur herablassend zu laestern? Leseempfehlung, und bitte mitdiskutieren. Aehnliches gab es vor einer Weile schon bei Enno Park.

Drei.

Bei der Diskussion mit Jens hatte ich einen Flashback. Eine aehnliche Diskussion nach dem Motto „wozu ueberhaupt noch Datenschutz“ gab es schon im Fruehjahr bei qrios im Blog — leider mit meines Erachtens viel zu wenig Diskussionsbeteiligung. Sollte man eigentlich noch einmal aufgreifen, finde ich.

Vier (zuerst vergessen, also Ergaenzungs-Ergaenzung).

Nach Inspektion meines Buchregals war Wlada der Ansicht, ich habe einen aehnlichen Literaturgeschmack wie ihr Chef und hat sich Free Culture ausgeliehen, was ich gleichermassen unerwartet wie verdammt cool fand. Womit die maximal nonchalant-prahlerische Ueberleitung zu Dirk von Gehlen geschafft waere, der auch noch etwas zur Lobo./.Weiss-Debatte schrieb, was ich zuerst uebersehen hatte.

SWU-Daten: Es geht voran

SWU-01

Die Aktion mit den Gruenen-Mails hat offenbar doch noch einen positiven Nebeneffekt: Ich habe den Verschicker in seiner Eigenschaft als SWU-Beirat gebeten, doch nochmal nachzuhaken, ob es nicht doch irgendwann eine API fuer die RBL-Echtzeitdaten geben wuerde. Die Rueckfrage seitens der SWU, was so eine API denn kosten wuerde, konnte ich natuerlich nich tzufriedenstellend beantworten — ich freue mich aber, dass das Thema langsam Gehoer zu finden scheint.

Bis dahin gibt es die leider etwas ungenauen, aus der Fahrplanauskunft geparsten Daten ueber die Selbststrick-API von Taxilof, und als Beispiel-Mobilanwendung fuer Mobilgeraete die Auskunft von Claus.

SWU-Daten befreit :D

Ich liebe das Internet :) Taxilof hat eine API gestrickt, um die ansonsten versteckten SWU-Livedaten auszulesen und weiterverarbeiten zu koennen. Heisst momentan zutreffenderweise api_bad und funktioniert sogar — also reinhauen und basteln, Stammverzeichnis hier.

Semesterticketreferent Finn hat aber auch schon angekuendigt, mitschubsen zu wollen, und laut der Ubicomp-Betreuer kann da gerne auch mal das Dekanat die SWU anschubsen. Vielleicht gibts dann bald sogar eine “offizielle” API. Fein :)

Befreit die Daten!

Ich habe mich schon vor zwei Jahren sehr ueber die Stadtwerke Ulm (SWU) aufgeregt, und gerade war mir danach, es wieder zu tun. Und zwar aus demselben Grund.

Von 2001 bis 2004 haben die SWU naemlich an einem Foerderprojekt des BMWI namens “RUDY” teilgenommen. Ich kann mich noch gut an die Busbeklebung zu RUDY erinnern, und dass ich keine Ahnung hatte, was das sollte. Irgendwie lief es wohl auf die MobilSAM-Sammeltaxen hinaus, die abends in den Vororten die Busse ersetzen, die man aber vorbestellen muss und die nach 2000 Uhr 50 Cent extra kosten, auch wenn man schon eine Fahrkarte hat. Eine Sammeltaxe habe ich vor ein paar Wochen zum ersten Mal benutzt, und so schnell werde ich das wohl auch nicht mehr tun, weil ich wegen der 50 Cent eingeschnappt war, von denen am Telefon niemand etwas gesagt hatte. (Manchmal bin ich nachtragend.)

Eine herausragende RUDY-Innovation ist aber wirklich toll,  naemlich die Fahrgastinformationssysteme, die an mittlerweile ziemlich vielen oft bedienten Haltestellen anzufinden sind, und die einem verraten, wann der naechste Bus oder die naechste Tram kommt. Und zur WM und EM kamen abends auch immer die Fussballergebnisse in einem Ticker ganz unten.

Jetzt bringt einem diese Anzeige nur etwas, wenn man tatsaechlich an der Haltestelle steht. Vorausgesetzt, die Haltestelle hat so eine Anzeige. Alternativ gab es ein furchtbares AJAX-Applet auf der SWU-Verkehr-Website, mit dem man durch lediglich 25 Mausklicks die GPS-gestuetzten Live-Abfahrtzeiten genau einer Linie an genau einer Haltestelle anzeigen lassen konnte. Imperfekt, wohlgemerkt, denn dieses Dings gibt es nicht mehr nur noch ueber Umwege bei ding.eu, mittlerweile offenbar sogar fuer mehrere Linien. Es gibt aber nach wie vor keine einzige Moeglichkeit, diese Daten irgendwie offiziell extern auszuwerten, obwohl die Moeglichkeiten so vielfaeltig waeren. Ein Browserplugin beispielsweise, das mir an der Uni die Abfahrtzeiten der Linie 3 anzeigt, und mich bei Bedarf fuenf Minuten vorher auf den naechsten Bus Richtung Mitte aufmerksam macht. Eine Mobilapplikation, die mir GPS-gestuetzt die naechste Haltestelle mit allen Daten anzeigt, oder meine “Lieblingshaltestellen”. Oder einfach die Emulation der FIS-Anzeigen einer bestimmten Haltestelle in der Naehe, die man dann auf einem Bildschirm in der Lobby eines Buerogebaeudes oder in der Uni-Cafete anzeigt.

Die SWU muessten dazu nichts selber entwickeln. Sie muessten nur eine Schnittstelle anbieten, ueber die man auf die Livedaten zugreifen kann, und dann die Schwarmintelligenz arbeiten lassen. Das wollen die SWU aber nicht. Betriebsdaten stelle man Dritten grundsaetzlich nicht zur Verfuegung, hiess es schon 2007. Stattdessen moege man doch einfach die Fahrplaene bemuehen, oder die Fahrplanauskunft des Handyticket.

Ich halte das fuer eine bodenlose Arroganz und Frechheit. RUDY wurde vom BMWI mit ueber 3,6 Millionen EUR aus oeffentlichen Mitteln gefoerdert. Und nur, weil man den Kunden zur Nutzung des eigenen Produkts “Handyticket” zwingen will, weigert man sich, die vorhandenen Echtzeitdaten so aufzubereiten, dass man daraus etwas basteln kann. Das darf nicht sein.

Ich habe heute wieder ein wenig recherchiert, ob es irgendein bundesweites Buendnis zur Befreiung von Daten und Einrichtung von APIs gibt. Bislang bin ich nicht fuendig geworden. Aber irgendwie wurde heute der Querulant in mir wieder geweckt und ich habe beschlossen, gegenueber den SWU und der Stadt Ulm mal so eine richtige Nervensaege zu sein, bis ich eine zufriedenstellende Antwort habe. Wer sich anschliessen moechte, melde sich in den Kommentaren.