Schlagwort-Archive: datalove

Ein ereignisreiches Open-Transit-Wochenende

tl;dr vorneweg: Wir waren am Donnerstag beim DING-Verbund, am Freitag war ich beim VBB in Berlin, und die SWU geben ihre Fahrplaene als GTFS frei. Hurra!

DIVA-Allueren

Auf Einladung von Martin Schiller vom DING waren Fox und ich am Donnerstag beim DING als „unserem“ Nahverkehrsverbund zu Besuch und haben uns deren Software zeigen lassen. In Deutschland gibt es nur wenige grosse Player auf dem Markt fuer Fahrplanungs- und Auskunftssysteme, beispielsweise HaCon (HAFAS) und MentzDV (DIVA und EFA), wobei in BaWue hauptsaechlich DIVA fuer die Fahr-, Dienst- und Umlaufplanung und EFA fuer die elektronische Fahrplanauskunft zum Einsatz kommen.

Und wie das in einem kleinen Markt so ist, reissen die dazu gehoerenden Softwareloesungen nicht gerade vom Hocker. DIVA verwendet in Version 3 als Datenbackend nicht etwa einen Standard wie VDV-45X, sondern ein eigenes Textdateiformat, das ich auch nach laengerem Betrachten noch nicht so recht umrissen habe. In DIVA 4 soll wenigstens eine Datenbank im Hintergrund laufen, auf die neue Version seien bislang aber wohl nur wenige Verkehrsverbuende und -betriebe umgestiegen.

Verkehrsbetriebe benutzen solche Planungssoftware ohnehin erst ab einer bestimmten kritischen Groesse ihres Betriebs. Viele der kleineren Dienstleister verwenden entweder ganz andere Umlaufplanungssoftware, oder machen das gar von Hand oder in Excel. Der „einfache“ Transfer von DIVA zu DIVA kommt hier bei uns nur zwischen Stadtwerken und DING zustande, kleinere Anbieter auf dem Land schicken ihre Plaene im besten Fall per XLS, im schlimmsten in sonstigen semistrukturierten Formaten.

Eine weitere Hoffnung fuer den Export der Fahrplaene nach GTFS war, die Daten aus der Datenhaltung der Elektronischen Fahrplanauskunft (EFA) herauszubekommen. Die ist aber nicht minder… spannend. Die Dateien sehen wie Binaerblobs aus, und die EFA selbst ist ein Konglomerat zusammengeflanschter Module, die sehr nach historischem Wachstum aussehen. Die Echtzeitauswertung heisst beispielsweise „rud“ und lehnt sich damit noch ans Projekt RUDY an, das 2004 zu Ende ging. Und zwischendrin poppen auf dem Windows-Server-Desktop, auf dem die EFA laeuft, Adobe-Distiller-Fenster auf, wenn irgendjemand einen PDF-Fahrplan erstellt.

Spaetestens an der Stelle stellte ich mir dann schon die Frage, ob man mit geeigneten freien Software-Werkzeugkaesten nicht viel reissen koennte in diesem Orchideensektor 😀

Nichtsdestoweniger, der Ausflug war interessant, und zeigte auch, dass die CSV-Dateien, die wir von den Stadtwerken bekamen, genauso fuer den gesamten Verbund (und einigem haendischen Aufwand) aus DIVA exportiert werden koennten. Das waere aber tatsaechlich nicht unbedingt die Loesung, sondern vermutlich erst der Anfang weiterer Probleme, angefangen vom Unterschied zwischen Planungs- und Repraesentationsliniendarstellungen bis hin zu eindeutigen Schluesseln fuer Haltepunkte.

Ausflug zum VBB und endlich Ulmer GTFS-Daten 🙂

gtfs

Tags darauf hatte die Open Knowledge Foundation zusammen mit dem Verkehrsverbund Berlin/Brandenburg (VBB) zur Projektvorstellung und Nachbesprechung des Hackdays im November 2012 eingeladen. Da unsere Arbeitsgruppe nach wie vor kein Reisebudget oder ueberhaupt irgendwelche Finanziers hat, hiess das also, um 0600 Uhr aufzustehen und mit dem Daumen nach Berlin zu reisen :>

Aufgrund meiner etwas unguenstigen Anreise (siehe Trampbericht unten) kam ich leider erst nach der ersten Projektvorstellungsrunde in den VBB-Raeumen am Bahnhof Zoo an, war aber sehr angetan vom grossen Andrang dort. Neben OKFN und VBB sassen dort Leute von der BVG, jemand von HaCon war eigens angereist, und ich konnte neben „alten Bekannten“ auch endlich mal Michael Kreil und anderen persoenlich die Hand schuetteln.

Eine ganz persoenliche Freude war mir, dort spontan eine Botschaft verkuenden zu koennen, auf die ich lange gewartet hatte: Auf der Anreise bekam ich den Link zum Datenauskunftformular der Stadtwerke Ulm zugeschickt, die wir nun ueber mehrere Monate lang begleitet haben, um ihre Soll-Fahrplaene nach GTFS zu exportieren. Leider mit einem Formular zum verpflichtenden Ausfuellen, aber das war ich dann doch durchaus bereit in Kauf zu nehmen, nachdem im Gegenzug die ODbL als Lizenz gewaehlt wurde 🙂

okfbuero

 

Es werden sich jetzt sicherlich nicht auf einmal™ tausende EntwicklerInnen auf den Ulmer Fahrplan stuerzen. Auch in Berlin passierten seit der Veroeffentlichung des VBB keine Instant-Wunder. Aber das ist meines Erachtens ein bedeutender Schritt und hoffentlich positive Signalwirkung fuer andere Verkehrsbetriebe, ebenfalls die Daten bereitzustellen.

Dementsprechend haben wir nach der Vorstellung das Ganze noch im OKF-Buero (siehe Bild) mit Mate und spaeter Bier begossen und uns noch solange darueber unterhalten, wie man das Thema weiter beackern koennte (wissenschaftliche Aufarbeitung, Hinweis auf das Kundenbindungspotenzial unabhaengiger Apps), bis ich endgueltig koerperlich so fertig war, dass ich mich endlich mit Gastgeber @_HeBu treffen musste, um unfallfrei ins Bett zu kommen.

(Das wurde dann durch einen Spaetibesuch und tags darauf durch einen Doener- und Spaeti-Besuch erfolgreich unterbunden. Trotzdem Danke, HeBu, fuer die neuerliche Gastfreundschaft und den ausgezeichneten Vanillequark von Butter-Lindner :D)

Trampstatistik

Hinweg:

  • Abfahrt Rosengasse mit der Linie 4 um 0706 Uhr(?), Ankunft Eichenplatz 0716 Uhr, wo nix los war.
  • Eichenplatz ab 0742 Uhr (26 Minuten) mit Margarete ehemals aus der Nachbar-WG, die anbot, mich generell unter der Woche immer um die Zeit auf die Lonetal nehmen zu koennen. Cool.
  • Ankunft auf einer total verlassenen Lonetal Ost um 0759 Uhr. Erst an der Ausfahrt gestanden, dann angequatscht, trotzdem erst um 0900 Uhr weiter (61 Minuten). Dafuer im Geschaeftsauto im Tiefflug, 137 km in 67 Minuten.
  • Kammersteiner Land Sued an 1007 Uhr, wenig los, angequatscht, 1047 mit 120 km/h und haeufigen Raucherpausen weiter (40 Minuten)
  • Taktischen Fehler begangen, nicht waehrend der Mittagessenspause meiner Fahrerin in Frankenwald Ost einen neuen Lift zu suchen.
  • Michendorf Süd an 1605 Uhr, machte mal eben 5:18h fuer 408 km. Trotz guter Unterhaltung etwas schade.
  • Weiter um 1620 (15 Minuten) bis zur U Kurfuerstenstrasse um 1710 Uhr, Fussmarsch bis zum Bf Zoo/VBB.

Rueckweg:

  • Aufbruch bei HeBu mit der S1 ab Wollankstrasse um 1313, S Johannissee an 1400 Uhr. An der Grunewald erst ein wenig rumgeschaut und angequatscht, das lief aber nicht. Also um 1430 mit Schild „Muenchen A9“ ab auf die Rampe, 1440 Lift bekommen 🙂
  • Fraenkische Schweiz/Pegnitz West an 1730 Uhr, d.h. 362 km in 2:50 Minuten und hervorragender Unterhaltung waehrend der Fahrt ueber die Unterschiede zwischen PaedagogInnen und ErzieherInnen 😀
    Sanifair-Gutscheine gegen Burger getauscht, 1750 mit Schild „Ulm“ an die Ausfahrt gestellt, 1804 Lift bis Bahnhof Heidenheim angeboten bekommen. Da sagt man nicht nein 🙂
  • Bf Heidenheim an 1942, 197 km in 1:38h. Das waren rekordverdaechtige 5:12h von Grunewald bis Heidenheim, und selbst mit S-Bahn vorneweg und den 50 Minuten Regionalexpress nach Ulm am Ende gerade mal 45 Minuten langsamer als ein ICE gewesen waere 😀

Open-Data-Links (hauptsaechlich)

OpenData und Co

datascience

Introduction to Data Science mag ich heute besonders hervorheben, weil es ein komplettes Buch rund um Datenauswertung mit R ist, und weil es frei ist (cc-by-nc-sa).
Es beginnt mit einer kleinen Einfuehrung, was ueberhaupt Daten sind, und warum der Autor das kommandozeilenorientierte R statt Excel und Co verwendet (einen Aufsatz ueber die Verbreitung und damit einhergehende Gefaehrlichkeit von Excel gibt es hier, via @343max/@hulalena), fuehrt in kleinen Schritten ueber Data Frames auf statistische Grundlagen wie Quantile, Histogramme und Signifikanz hin, bevor es mit R Studio dann doch klickibunti benutzerfreundlicher wird, um Twitter und Texte zu analysieren, Daten zu speichern und (mein Lieblingsthema! :D) Karten zu bauen.
Alle Beispiele sind aus der Praxis gezogen und ersetzen zwar mit Sicherheit keine tiefere Beschaeftigung mit statistischen Methoden, eignen sich aber wunderbar als Einfuehrung und Appetitmacher auf mehr. Leseempfehlung!

Ausserdem:

API

Unterhaltung

  • Stenocast, Folge 0/1 / stenocast.de — Herr Urbach und Co. lesen alte Plenarprotokolle der Bonner Republik. Arbeitstitel: „Too old, didn’t read“.
  • The Importance of Excel — ob das so unterhaltend ist, sei mal dahingestellt: Warum Excel so weit verbreitet ist, ueberall benutzt wird — und welche Konsequenzen das hat (nochmal aufgegriffen von oben)
  • The Robbers Cave Experiment — Wie Sozialpsychologen einfach mal zwei sommercampende Kindergruppen aufeinander treffen liessen um herauszufinden, was man braucht, damit die sich bekriegen. Aufloesung: Gar nix weiter. (via erlehmann und plom)
  • Traumatische Momente im Kinderfilm — die 50 verstoerendsten Kinderfilmszenen, von den Geisterelefanten bei Dumbo bis — natuerlich — zu Bambis Mutter. (via/@leitmedium)

Open Data Day 2013

Und dann haben wir einfach wieder gehackt. Oder so aehnlich.

Eigentlich kam uns — also der datalove-Hochschulgruppe, die unter Anderem ulmapi.de befeuert — der weltweite Open Data Day am 23. Februar eher so mittelgelegen. Eigentlich wollen wir Mitte des Jahres wieder ein OpenCityCamp machen, fuer dessen Verpflegung wieder Gelder eingeworben werden muessen, eine Ueberlassung von der Universitaet eingeholt, ein Rahmenprogramm aufgestellt… die Beteiligung am Open Data Day war eigentlich eher mal so eben eingeschoben, nebenher organisiert, um die Flagge hochzuhalten.

Eigentlich.

IMG_9009_

Umso erfreuter bin ich im Nachhinein, dass mit so wenig Aufwand so viel herauskam. Aehnlich wie beim Node Knockout 2011 einfach mal in der Gruppe zusammenzusitzen, Dinge bauen, diskutieren, dazulernen — und damit Ulm zu einer von gerade einmal acht deutschen Staedten machen, die sich an diesem Hackday beteiligten. In Koeln beispielsweise hat man angefangen, unsere Livemap auf Koelner Verhaeltnisse umzubauen, waehrend Falco seinerseits besagter Ulmer Karte einige Bugs auszutreiben versuchte.

Mit Simon Streib vom kiz diskutierten wir im „Kaffeezimmer“, was an der eigenen Uni in Sachen Open Access getan wird und wie hoch die Betraege sind, die ueblicherweise in Journal-Abonnements versenkt werden. Ich haette mir an der Stelle ja auch die Praesenz der einen oder anderen Studierendenvertreter gewuenscht, aber der Hinweis auf kostenloses Essen war wohl nicht gross genug geschrieben gewesen…

Was leider immer noch nicht klappte: Den Haushalt der Stadt Ulm auf openspending vollstaendig zu importieren. Von der Zeppelin University kamen trotz des Austauschs im November weder TeilnehmerInnen noch Feedback, wir wissen nach wie vor ebensowenig von Doppik wie damals, und externe Hilfe kam leider auch doch keine zu uns. Wir haben nun die Wahl zwischen einer Interpretation, in denen verschiedene Teilhaushalte zusammen 400% des Gesamthaushalts ausmachen, und einer, in der der Haushalt drei- bis viermal so gross ist wie das, was auf der offiziellen Seite der Stadt steht. Wir vertagen erneut. Leider.

oeffnungszeiten

Dafuer wurden andere Projekte fertig: Michi hat eine Oeffnungszeitenkarte fertig gebaut, die auf Basis der Daten aus der OpenStreetMap anzeigt, welche Einkaufsmoeglichkeiten gerade geoeffnet haben. Benni hat in Rekordzeit den ersten Datensatz, den wir jemals von der Stadt bekamen, in Click that Hood eingebaut — wo Ulm nun zwischen Toronto und Vancouver steht, als dritte deutsche Stadt ueberhaupt. Und wir haben uns viele neue Ideen angesehen, an „alten“ Projekten weitergearbeitet und mit den TeilnehmerInnen aus anderen Staedten ausgetauscht.

IMG_9014_

Alles fuer die ueberschaubare Summe von knapp 60 EUR fuer die Verpflegung, die Benni als mittlerweile-Geld-Verdiener grosszuegig uebernommen hat.

Das naechste OpenCityCamp bekommen wir vor dem Hintergrund vermutlich guenstiger hin als das letzte. Und hoffentlich haben wir bis dahin jemanden gefunden, um endlich den beschissenen Haushalt zu importieren :>

Bilder von Michael Mueller, unter Creative-Commons-Namensnennung-Lizenz.

Erste Schritte in QGIS

Ich schlage mich nun seit einigen Tagen bzw. Wochen damit herum, aus diversen Zwischenprodukten von DIVA einen funktionierenden GTFS-Datensatz zu bauen — beziehungsweise, einen Prozess zu bauen, mittels dessen die Stadtwerke das zukuenftig selber tun koennten, wenn sie das wollten. Die Fahrplaene sind dabei momentan das kleinste Problem, die koennen gemaess der Vorlage per rudimentaerem Hacktool automatisch aus den TSV-Dateien ueberfuehrt werden, die die SWU fuer den Satz ihrer Pocketfahrplaene verwendet.

Mehr Probleme machen derweil die scheinbaren Kleinigkeiten, die es in sich haben. Die Haltestellenorte hat einfach mal jemand irgendwo vom Server des Nahverkehrsverbund geparst. Die koennte man nehmen — dann waer’s aber nicht mehr sauber, weil die Datenquelle einer Nutzung unter freier Lizenz bislang nicht zugestimmt hat. Dasselbe gilt fuer die Fahrwege der Busse — die holt swu2gtfs bislang auch einfach aus der elektronischen Fahrplanauskunft des Verbunds.

Fuer beides habe ich testweise auch die Daten der Stadtwerke zur Verfuegung gestellt bekommen, die aber nur noch mehr Folgefragen aufwerfen. Eine Linie kann im Tages- und Wochenverlauf zig verschiedene Fahrwege haben, je nachdem, wo sie anfaengt, wo sie endet und welche Haltestellenreihung sie nimmt. Die haendisch zuzuordnen ist… aufwaendig. Noch umstaendlicher wird es bei den Haltepunkten: Die sind zentimetergenau vermessen — und zwar pro Haltepunkt, derer es pro Haltestelle gleich mehrere geben kann. Klar: Die meisten werden ja in zwei Richtungen bedient, und kompliziertere Halte wie der am Theater haben auch mal vier Steige, zwischen denen bis zu 50 Meter liegen.

Ich habe die KML-Dateien dann einfach mal in QGIS geladen und war ganz angetan, das auch mal im Ueberblick sehen zu koennen. Wunderbare freie Software, die per OpenLayers-Plugin auch gleich eine passende OpenStreetMaps-Hintergrundkarte einbinden koennen und vieles mehr.

Ich bin mir momentan noch nicht ganz sicher, wie ich hier weitermachen soll. Mehr oder minder ideal waere es, pro Haltestelle die mittlere Koordinate aller Haltepunkte zu berechnen, die dann als „virtuelle“ Oberhaltestelle aller Haltepunkte dient (Beispielsweise OLIF 9001010 fuer das Theater). Das ist eine eher krude Approximation und wird vor allem dann haesslich, wenn (wie aktuell) die Fahrplaene nicht den Steig angeben, von dem sie abfahren (z.B. 90010103 fuer die 6 in Richtung Uni, die am Theater-Steig 3 abfaehrt). Die Alternative ist, einfach immer den ersten Steig zu kopieren und als Oberhaltestelle zu definieren, um dann ggf. mit noch kruderen Abweichungen zu leben — aber hey, wenigstens eine Fahrtrichtung stimmt dann immer exakt. Naja.

tl;dr: QGIS scheint toll zu sein, es laesst einen Karten wie die obige machen. Geoinformationshackerei kann Leute in den Wahnsinn treiben.

Open-Data-Rundumschlag

Einige Verweise auf Videos und vor allem Veranstaltungen:

  • Am Donnerstag(!), dem 29. November ist der Entwicklerinnentag Apps and the City in Berlin; es geht um die neuerdings offenen Verkehrsdaten des VBB und was man damit machen koennte
  • Am Freitag, dem 7. Dezember nochmal Berlin: Das Bundesministerium des Innern und Fraunhofer FOKUS laden zum Community Workshop: Open Government Platform Deutschland.
  • Am Samstag, dem 8. Dezember trifft sich datalove ulm in den Raeumen der Verteilten Systeme an der uulm, um die Livemap zu aktualisieren, GTFS umzuwandeln, den Haushalt anzusehen und was sonst so rumliegt. Beginn 1000 Uhr.

Wer diese Termine (und die der vergangenen Wochen und Monate) ansieht, stellt fest, dass alle zwei Wochen irgendwas in Berlin ist. Und das wird fuer mich langsam zum Problem. Ich waere alleine diesen Monat zweimal gerne in Berlin (gewesen), um mich zu Open Transport Data auszutauschen — aber ich habe keine Ahnung, wie ich das anstellen sollte. Trampen ist eine Option, aber wenn ich dafuer einen Arbeitstag ausfallen und mir ueber 100 EUR durch die Lappen gehen lassen muss, kostet mich das ebenso richtig ordentlich Geld, als wenn ich mit dem Zug fahren wuerde.

Julia Kloeckner erzaehlt im folgenden Video (ab Minute 52) etwas ueber die Hintergruende von Apps and the City und wie es zu einem Donnerstagstermin kommt:

Ich bin indes ein wenig nachdenklich, wie „wir im Sueden“ weiter den Anschluss behalten sollen, wenn das OpenData-Barcamp Friedrichshafen und unser OpenCityCamp die einzigen Gegenpole im Sueden zu sein scheinen. Ein Argument mehr, auch am Open Data Day, dem 23. Februar 2013 etwas hier in Ulm anzuschieben — oder hat jemand Ideen, wie datalove einfach an Fahrtkostenzuschuesse kommt?

OpenData-Barcamp in Friedrichshafen

Wer IOException.de liest, hat den zugehoerigen Artikel schon gesehen: Am Freitag waren Falco, Timo und ich als datalove-Repraesentanten beim OpenData-Barcamp in der Containerstadt der Zeppelin University Friedrichshafen. Ein wichtiger und sinnvoller Besuch — gastgebender Professor, Joern von Lucke, ist von meiner Warte aus so ziemlich die einzige Person in Sueddeutschland, die sich sichtbar mit der Forschung rund um Open Data und Open Government beschaeftigt. Die GI, fuer deren Fachgruppe Verwaltungsinformatik er spricht, hatte unlaengst ein Memorandum zur Oeffnung von Staat und Verwaltung herausgegeben — und natuerlich war er auch im Mai beim OpenCityCamp in Ulm, was einen Gegenbesuch unbedingt erforderlich machte 😉

Die Friedrichshafener Arbeitsgruppe, die das Barcamp organisierte und die Mehrzahl der Gaeste stellte, gab uns auch einen ganz anderen Einblick in das Thema, das wir so gut zu kennen glaubten: An der ZU gehoert ein Praktikum in einem Ministerium oder bei einer NGO im Ausland zum guten Ton, wie mir scheint, so dass wir auch mal eben einen Eindruck von der Situation in Kenia bekamen, das bei der praktischen Umsetzung der offenen Verwaltung offenbar vielen europaeischen Konterparts weit voraus ist.

Fuer mich am wertvollsten war aber der kleine Moment, als wir von unserer Ueberforderung mit dem Haushalt der Stadt Ulm berichteten: Wir, allesamt (Medien)InformatikerInnen, haben trotz eintaegigen Doppik-Crashkurses in der zentralen Verwaltung der Stadt Ulm immer noch ein Defizit bei der Interpretation des Haushalts-Rohdatensatzes und — vor allem — bei der Plausibilitaetspruefung einer Visualisierung nach dem Vorbild von OpenSpending.

Das rief sofort die anderen TeilnehmerInnen auf den Plan, die im Gegensatz zu uns sehr wohl sehr viel Ahnung von solchen Dingen haben und gleich einmal durch die CSV-Dateien scrollten. Im Gegenzug scheinen wir ein wenig mehr Ahnung von (insbesondere geospatialer) Visualisierung zu haben, so dass wir gegen Ende gleich mal Kontakte fuer eine moegliche Lerntandempartnerschaft austauschten: Wir bringen den FriedrichshafenerInnen Visualisierung bei, sie uns dafuer dieses Zeug mit der Wirtschaft 😉

Ich freute mich auch, dass auch wir im Gegenzug Neues zeigen konnten: Ich referierte ein wenig ueber unsere Anstrengungen, den Nahverkehr in Ulm ein wenig offener zu machen, insbesondere das Projekt, Fahrplaene als GTFS zur Verfuegung zu stellen. Vergleichbare Bemuehungen scheint es im Bodenseekreis bislang noch nicht zu geben, aber dort zaehlt es offenbar auch schon als „Nachtbus“, wenn eine Linie bis 2200 Uhr gefahren wird oO

Fazit unterm Strich: Eine Wiederauflage des OpenCityCamps scheint Not zu tun. Zusammen koennen Friedrichshafen und Ulm einen Gegenpol zu den sonst leider sehr berlinzentrischen OpenData-Bemuehungen bilden — und als Zwischenpfeiler zwischen Stuttgart und Ulm dienen 🙂

(Bild mit freundlicher Erlaubnis von @Tinka_Grosse)

Wie schwer es fallen kann, Fahrplaene zu oeffnen

Wer die letzten Tage halbwegs aufmerksam im Netz unterwegs war, hat vermutlich diese Schlagzeile gesehen: OpenPlanB hat mal eben saemtliche deutschen Fahrplandaten gezogen und als Torrent verteilt. Deswegen mal ein kurzer Statusbericht zum Thema aus Ulm.

Klar, in Sueddeutschland dauert alles ein wenig laenger. Seit einigen Jahren versuchen hier einige StreiterInnen, an die Echtzeitdaten der Busse und Strassenbahnen zu kommen, um damit tolle Dinge™ bauen zu koennen. Anfangs hatte Fox einen Parser Pseudo-Anfragen an die Fahrplanauskunft stellen lassen, spaeter gab es dann sogar ein Frontend dafuer, und irgendwann wurde auch klar, dass der Nahverkehrsverbund DING die EFA von mentzdv laufen hatte, zu der es auch eine schoene Schnittstellendokumentation aus Linz gibt.

open Data im ÖPV from c-base on Vimeo.

Darueberhinaus hatten wir aber so etwa das im obigen (leider sehr zerhackstueckelten) Video von Michael Kreil umrissene Problem: Wir kamen nicht an die Referenz-Plandaten heran. Der Verkehrsverbund erzaehlte uns, dass wir keinesfalls einfach so Zugriff darauf bekommen koennten, und generell hielt man uns wohl fuer ahnungslose Irre.

Als Tueroeffner fuer die Kommunikation zumindest mit den Ulmer Stadtwerken bot sich unsere in einem Wochenende zusammengehackte Pseudo-Livemap samt der an einigen Stellen der Uni haengenden Live-Busanzeige an, ueber die wir tatsaechlich innerhalb kuerzester Zeit Kontakt zum Verantwortlichen fuer die Datenhaltung bekamen.

(Anekdoteneinschub: Besonders beeindruckt waren die Verantwortlichen den Erzaehlungen nach davon, dass Fox fuer seine Auskunftsseiten die XML-Schnittstelle benutzt hatte, von deren Existenz offenbar niemand oder kaum jemand beim Verbund ueberhaupt wusste)

Wir dachten nun jedenfalls, dass mit dem direkten Draht zu den Stadtwerken in kuerzester Zeit ein GTFS-Satz fuer die Ulmer Linien gebaut werden koennte, womit Ulm als womoeglich erste deutsche Stadt beispielsweise in Google Transit auftauchen koennte.

So einfach war das aber nicht.

Und das ist auch die groesste Huerde ueberhaupt, wenn man an solcherlei Daten herankommen moechte. Die gesamten Plandaten liegen auf irgendwelchen Betriebsleitrechnern in irgendeiner Planungs- und Betriebsleitsoftware. Da gibt es einige wenige Haeuser, die so etwas herstellen, und es handelt sich soweit wir das sehen koennen um proprietaere Pest. Schnittstellen gibt es, die folgen der VDV-454, und ich weiss auch nach intensiver Lektuere der besagten Schrift noch nicht so recht, wie man daraus irgendetwas stricken sollte, das auch wirklich sinnvoll ist. Michael Kreil bzw OpenPlanB haben wohl in grossem Umfang Hafas-Dumps und reihenweise Fahrplanauskunftdaten gezogen, um sich daraus eine deutschlandweite Datenbank zu stricken. So etwas dachten wir uns anfangs auch, erkannten aber relativ schnell, dass wir selbst fuer den relativ kleinen DING-Verbund zigtausende Abfragen stellen muessten, um hinterher auch ein reales Abbild der Soll-Fahrplaene ueber das Jahr hinweg zu bekommen.

Um ein Gefuehl dafuer zu bekommen, was mit den Daten moeglich waere und somit Tueroeffner zu spielen, taugt dieses Prinzip aber, und die Visualisierungen sind schon wunderbar anzusehen. Uns stand aber der Sinn nach einer Moeglichkeit fuer die Stadtwerke, damit diese zukuenftig selber ein valides GTFS-Set unter Beruecksichtigung aller Sonderfahrplaene ins Netz stellen koennten.

Der Weg, den wir momentan dabei beschreiten, ist ein relativ absurder: Es gibt offenbar irgendeine Schnittstelle, an deren Ende CSV-Tabellen fuer eine Person herauskommen, die diese dann in die gedruckten Fahrplaene giessen darf. Da diese Plaene einem bestimmten Muster folgen, kann man sie mit einem sehr kruden Parser nach GTFS umschreiben und dabei gleich per EFA-Schnittstelle die Fahrwege abfragen und mit einbinden. Leider fehlen hier am Ende immer noch viele Daten, die mit an Sicherheit grenzender Wahrscheinlichkeit irgendwo im DING- bzw. SWU-System abgebildet sind: Gefahrene Distanz an einer Haltestelle, Tarifstrukturen und vieles mehr. Ausserdem muessen auch alle Kalenderbesonderheiten nochmals von Hand nachgetragen werden.

Wenigstens sind wir aber so weit, seit dem Fruehjahr ein grundliegendes GTFS-Set exportieren zu koennen, und nachdem ich mich vor einigen Tagen noch einmal daran gesetzt habe, auch die Fahrwege darin abgebildet zu haben, so dass Ulm nun wohl die zweite deutsche Stadt mit einer Mapnificent-Karte ist und wir hoffentlich demnaechst einmal mit den Stadtwerken besprechen werden, ob und wie wir zum Fahrplanwechsel 2012 tatsaechlich auch ein „offizielles“ Ulmer GTFS-Set veroeffentlichen koennen.

Vielleicht hilft das manchen enthusiastischen OePNV-Fans zu verstehen, warum nicht immer alles so schnell geht, selbst wenn alle beteiligten Stellen eigentlich so etwas wollen. MentzDV bietet anscheinend sogar mittlerweile einen GTFS-Export an — man darf sich aber ausrechnen, dass das hierfuer zuzukaufende Modul nicht kostenlos sein wird.

PS: Wir sind hier in Ulm in der etwas einmaligen und manchmal etwas peinlichen Situation, den umgekehrten Zustand wie in Berlin zu haben. Plakativ geschrieben rennen wir offene Tueren ein und werden mit Daten ueberhaeuft, haben aber zu wenige MitstreiterInnen, um mit all diesen Daten auch etwas anfangen zu koennen. Wir haben hier keine c-base und keine re:publica, aber es gibt Mate und ne Donau und ab und zu ein OpenCityCamp. Falls ihr also schon immer mal die Welt veraendern wolltet: Das geht auch hier. Und man muss sich bei den Buffetts nicht immer mit @mspro um die Schnittchen pruegeln. Kombt alle forbei, es gibt einen noch zu visualisierenden Haushalt, eine zu verbessernde mobile Nahverkehrs-Liveabfrage, Entsorgungsdaten und noch viele andere Kleinigkeiten.¹

(¹ Auf Anregung von @plomlompom soll ich schreiben, dass Berlin eine „HipsterHölle [ist], wo man nix mehr produzieren muss, um Anerkennung zu kriegen. Hier unten dagegen beweisen sich die wahren Hacker!“)

Wir OpenCityCampen mal.

Im Sueden dauert ja alles ein wenig laenger, was das Netz angeht — moechte man meinen. Alles findet nur in Berlin statt — moechte man meinen. Dieses Wochenende haben wir einmal beschlossen, einfach mal dagegenzuhalten. Und das im beschaulichen Ulm. Sportlich, aber es scheint aufzugehen 😉

Zugegeben, die Runde war ueberschaubar. Und eigentlich mit weniger TeilnehmerInnen, als ich mir erhofft und erwuenscht hatte, was nicht zuletzt wegen der wirklich grandiosen Fruehstuecks- und Mittagsbuffets (Danke an die MFG und die Stadt fuer das Sponsoring!) und des spontan parallel gebackenen Apple Crumble schade war. Impulse gab es jedoch nicht zu knapp.

Erst einmal kam jedoch der Treppenwitz jeder Netzveranstaltung: Das WLAN ging nicht. Nach Telefoniererei mit dem kiz-Helpdesk stellte sich das als Copy&Paste-Problem heraus und es gab kurzerhand einen neuen Gastzugang. Danke an die uulm, bei der sowas auch wochenends funktioniert 😉

Ich bin nach dem ersten Tag auch ganz gluecklich ueber die Sessions. Meine persoenlich groesste Befuerchtung (noch vor der Teilnehmerzahl) als Barcamp-erst-Mitveranstalter war, dass am Ende nur langweilige Sessions auf dem Plan stehen wuerden. Dem war nicht so, und Barcamp-typisch ergaben sich auch abends noch viele Randdiskussionen.

T-City Friedrichshafen

Vorher kamen jedoch die eigentlichen Sessions, die von Einfuehrungen in Linked Open Data ueber das Apps4De-Gewinnerprojekt LISA, Praxisbeispielen aus Friedrichshafen, Verkehrsumfragen und freie Funknetze bis zum Austausch ueber den OpenData-Portal-Prototypen des Landes und Anwendungen im OPNV reichten. Alle Sessions mit mehr oder weniger vollstaendigen Mitschrieben finden sich in unserem EduPad (aktuell noch mit Zertifikatswarnung, sorry hierfuer)

Offene Türen

Creative Commons

Präsentationspause

Eines kann man auch nicht ohne Stolz sagen: Ulm und die Region sind am Ball. Genauer gesagt sind wir in der etwas absurden Situation, jeder Menge Offenheit und Bereitschaft zu Datenoeffnung zu begegnen, aber gar nicht genuegend EntwicklerInnen und AnwenderInnen zu haben, um auch praktisch aus allen Quellen machen zu koennen. Nicht zuletzt deswegen wollten wir hier auch die Keimzelle zu etwas weiterem Wachstum der datalove-Arbeitsgruppe (oder Daten-EinzelkaempferInnen) saeen.

Apple Crumble

Abendausklang

Und wie immer ist ein Barcamp erst endgueltig vorbei, wenn keineR mehr Lust hat, noch dazubleiben. Momentan ist kurz nach 2300 Uhr, und hier sitzen nach dem Sofa-Abendausklang bei Apple Crumble immer noch Leute vor ihren Laptops und hacken Dinge.

Das Camp endet, wenn keiner mehr Lust hat

An offenen Daten der Region koennen wir derweil momentan nicht allzuviel machen: Wenn schon das WLAN funktioniert, muss natuerlich tatsaechlich das OpenData-Portal des Landes ausfallen — in dem auch die Haushaltsdaten liegen, die ich gerne weiter aufbereitet haette. Mal sehen, ob wir die bis morgen irgendwie aufgetrieben bekommen.

Wer Lust hat, morgen noch dabeizusein: Einfach vorbeikommen; Fruehstueck ist ab 0900 Uhr in O28/H21, Sessionplanung ab 1000 Uhr ebenda.

Datendings (Hallo Journalisten)

Datenflut – Vortrag bei twenty.twenty in Wien – 21.03.2012 from datenjournalist.de on Vimeo.

Als ich vor zwei Jahren bei der grossen Ulmer Zeitung ein Praktikum in der Onlineredaktion machte, verfiel ich in ein typisches Informatikerverhalten. Mir fiel auf, dass ein nicht unerheblicher Teil der Arbeit aus prinzipiell automatisierbaren Teilaspekten bestand, und innerlich drehten die Muehlen, die das irgendwie scripten wollten. Beispielsweise wurde der Polizeibericht, sobald er per E-Mail eintraf, sowohl von der Onlineredaktion als auch von Print jeweils gelesen, in der Regel umgeschrieben, in das jeweilige Contentmanagementsystem befoerdert und veroeffentlicht.

Nach hinreichend vielen Semestern Informatikstudium reicht das fuer einen inneren Aufschrei und einen kaum zu baendigenden Willen, dieses System zu automatisieren.

Geschafft habe ich das damals nicht, aber ich habe mir wenigstens einige Seiten festgehalten, mit deren Hilfe ich damals ein wenig in die Welt des Datenjournalismus eingestiegen bin.

Fast forward: Zwei Jahre spaeter, und wir sind eigentlich immer noch nicht bahnbrechend weiter als 2010.

Ich glaube, es gibt recht viele Journalisten, die entweder Angst vor Daten haben oder aus irgendwelchen Gründen glauben, eine Analyse sei nicht nötig. Sie glauben, dass die traditionellen Wege der Berichterstattung immer schon richtig waren und das das auch so bleiben sollte. Das ist für mich eine Sünde des falschen Handelns. Auf der anderen Seite gibt es das Problem, dass in vielen Redaktionen die Existenz bestimmter Werkzeuge, Techniken oder Möglichkeiten einfach nicht bekannt ist. Von den zwei Gründen der Nicht-Nutzung ist das die besonders tragische Auslassung

sagt Aron Pilhofer im Interview mit Tereza Bouza, dessen deutsche Version der in dieser Thematik beinahe allgegenwaertige Lorenz Matzat in seinem Blog veroeffentlicht hat.

Der Einstieg ist dabei denkbar einfach — damals stiess ich auf grosse Begeisterung, als ich eine einfache Flash-Timeline zu einem Thema vorschlug, die mit wenigen Zeilen Code eingebunden werden konnte. Flowingdata ist eine schoene Anlaufstelle fuer Inspiration zu Visualisierungen jeglicher Art, und wer tiefer einsteigen moechte, findet bei Florian Gossy eine umfassende Linkliste.

Trotzdem werde ich immer wieder ueberrascht, wie abweisend mit dem Thema umgegangen wird. Es mag an der Mathematik liegen, die oft gefordert wird, oder an dem mehr oder (eher) weniger grossen Programmieraufwand, aber oft habe ich den Eindruck, dass man nicht so recht Lust hat, sich ueberhaupt mit dem Thema auseinanderzusetzen.

Beim kommenden OpenCityCamp im Mai hier in Ulm war von Anfang an der Plan, sich auch mit Datenjournalismus auseinanderzusetzen, und dementsprechend war das auch Teil der Pressemitteilung der Universitaet, die zu meiner Freude auch in diversen oertlichen Medien aufgegriffen wurde.

Wenn wir aber dann kurz auf die Moeglichkeit verwiesen, doch auch als JournalistIn am OpenCityCamp teilnzunehmen, gab es bislang nur Kopfschuetteln: Das sei ja am Wochenende, und wenn man da nicht vom Arbeitgeber freigestellt werde, gehe ja die Freizeit drauf. Mehr als dass meine da schon laengst fuer draufgeht, konnte ich dann auch nicht mehr entgegnen…

(eingebettetes Video ebenfalls von Lorenz Matzat)

Addendum, beinahe vergessen: Bei der Spreerunde gibt es Aufzeichnungen der NR-Tagung Datenjournalismus. Fuer diem, die’s dann vielleicht doch interessiert.

Die Stadtwerke machen Social Media

Ausnahmelagen sind die Momente, in denen das Echtzeitnetz brillieren kann. Heute streikten die BusfahrerInnen der Stadtwerke Ulm bis etwa 1430 Uhr, was auch bereits in den grossen Medien der Region angekuendigt wurde.

Von einer tatsaechlichen medialen Begleitung des Ausstands hatte ich wenig mitbekommen — tatsaechlich war es hauptsaechlich Selbsthilfe der Betroffenen auf Twitter, beispielsweise durch das von @taxilof schnell auf die Lage angepasste Haltestellenscript, mit dessen Hilfe man herausfinden konnte, wann der naechste von der (nicht streikenden) RBA betriebene Bus des Umlaufs 3/5 kommen wuerde, der einen an die Uni bringt. Das wurde dann noch ein wenig untereinander verteilt, und ueber @ulmapi twitterte ich, als auf einmal wieder Ist-Daten der rollenden Busse eintrafen, ansonsten schien es aber ruhig an der Social-Media-Front.

Erst gerade vorhin sah ich durch Zufall, dass die Stadtwerke eine ansehlich gepflegte Facebook-Praesenz haben — auf der sich nicht viel zum Streik fand, aber immerhin alle Rahmendaten und die Information, als es wieder weiterging. Und Videos, die es zwar auch dilettieren, dafuer aber menscheln liessen.

Man kann sich jetzt wieder fragen, ob das so toll ist, wenn diese Informationen auf der Facebook-Seite mit wenigen hundert Fans, aber nicht auf der offiziellen Unternehmensseite zu finden ist. Halt, ich nehme das zurueck: Das ist eigentlich ziemlich beschissen. Dass dort aber etwas geht, und vor allem dass auf jeden einzelnen Kommentar reagiert wird, finde ich respektabel.

Da koennte sich manch andere Instanz eine dicke Scheibe abschneiden.