Menschen, die auf Rankings starren

Jetzt hab ich aus Anlass nochmal die Bewertungskriterien des Bitkom-Smart-City-Index genauer angesehen, und das sagt eventuell viel mehr über den Bitkom aus als über die ausgewürfelte Rankingliste 😀
— stefan (@_stk) November 24, 2020

Seit letztem Herbst schwanke ich zwischen „ich sollte unbedingt endlich mal was zum Bitkom-Smart-City-Index schreiben“ und „das ist doch eigentlich offensichtlich und macht gar keinen Spass“. Jetzt gab es aber ein Update des Rankings, das herumgereicht wird, und das nehme ich jetzt einfach mal zum Anlass, auszusprechen:

Der Bitkom-Smart-City-Index ist methodisch schwach
die Rangfolge der Staedte darin hat kaum Aussagekraft
als Indikator taugt er eigentlich nur, um vor den Leuten zu warnen, die ihn fuer bare Muenze halten.

Im besten Fall kann man ihn verwenden, um (bei einem genuegend schlechten Abschneiden) mehr Umsetzung vor Ort zu fordern – im schlimmsten Fall lenkt er (wie so vieles in dem Bereich) von den eigentlichen Baustellen ab. Dazu leidet er unter dem (typischen) Dashboard-Problem, dass er dazu verleitet, rein auf die Indikatoren hin zu optimieren, damit das Ranking besser wird. Da Ranking und tatsaechliche Problemloesung aber wenig miteinander zu tun haben, ist das im besten Fall nur schaedlich.

Was ist das ueberhaupt

Der sogenannte „Index“ wird seit 2019 vom Branchenverband Bitkom herausgegeben und soll nach eigenen Angaben „alle deutschen Großstädte in Punkto Digitalisierung“ vermessen. Im Bericht von 2019 wird einleitend ein Kapitel „Methodik“ vorgestellt, das die Bewertungskriterien etwas genauer erklaert als der Bericht von 2020.
Auffallend ist dabei:

wie oberflaechlich die gewaehlten Kriterien sind
dass sich die Kriterien teilweise ueber die Erhebungsjahre hinweg aendern und nicht direkt nachvollziehbar ist, ob sich eine veraenderte Einstufung in einer Kategorie auf eine tatsaechliche Veraenderung vor Ort zurueckfuehren laesst oder die Kriterienaenderung selbst
dass die Zusammenhaenge einer strategischen, strukturellen Integration von Digitalisierungsmassnahmen sich kaum im Index wiederfinden

So ist die Bezahlung per Karte oder e-Payment bei Behoerdengaengen eine eigene Kategorie, nicht aber die Integration in Online-Verfahren. Generell scheint das gesamte Thema OZG und vor allem die dafuer notwendige Tiefenintegration der erforderlichen Massnahmen keinerlei relevante Rolle zu spielen: Nicht nur die Bezahldienste stehen komplett losgeloest von moeglichen Onlinedienstleistungen da, auch die Online-Terminvergabe fuer notwendige Amtstermine luemmelt im Methodenkapitel unmotiviert zwischen den Stuehlen. Weniger als 10 der 575 OZG-Leistungen spielen eine Rolle fuer den Index. Es wird dabei nicht erklaert, warum es gerade diese sind. Theoretisch koennte eine Kommune hunderte OZG-Dienstleistungen im hoechsten Reifegrad anbieten und trotzdem schlecht abschneiden, wenn es eben nicht gerade die ausgewaehlten sind.

Gleichzeitig ist eine ganze Reihe der Indikatoren Hype-getrieben. Wer Chatbots zum gaehnen findet, nicht der Show wegen automatisierte Fahrzeuge im ÖV (de facto wohl eher auf abgesperrten Teststrecken) testet, oder den Nutzen eines „Smart City Dashboard“ in Frage stellt (was zur Hoelle auch immer das konkret sein soll), bekommt im Ranking weniger Punkte. Ob das ein Indiz fuer Nicht-Smart-heit ist, oder ob es einfach eine solide Einschaetzung ist, welche Sau man nicht durchs Dorf mitreiten will, kann man sich dabei selber ueberlegen. Nur wer auf der Sau sitzt, kann aber auf eine Spitzenposition hoffen – und die pauschale Zusammenfassung der Bereichspunktzahlen macht es fuer Dritte praktisch unmoeglich, nachzuvollziehen, welche fehlenden Punkte jetzt dem Verzicht auf den Hype geschuldet sind.

Wirklich seltsam wird es aber, wenn man sich die Bewertungen einzelner Staedte in den Kategorien genauer betrachtet, die man selber zu bewerten in der Lage ist. Im Bereich „City-App“ bekommt die Stadt Ulm beispielsweise 66,67 von 100 moeglichen Punkten, und ich habe keine Ahnung, warum – die App ist nun bald 10 Jahre alt, was man recht deutlich sieht. Viel spannender faende ich ja an der Stelle als Indikatoren fuer eine „smarte“ Stadt, wie viele der dort gesammelten Informationen auch als Open Data ueber standardisierte Schnittstellen verfuegbar sind, aber naja. Wie viel die 66,67% fuer die City-App jetzt fuer die Gesamtwertung des Bereichs Verwaltung ausmachen, konnte ich indes nicht nachvollziehen – die Gesamtwertung scheint noch irgendwie gewichtet zu sein und ist nicht der Durchschnitt der Einzelwerte. Auch die Gewichtung selbst und die Begruendung dafuer sind nicht transparent nachvollziehbar. Ich hatte mir beispielhaft die bewerteten Teile hoch gerankter Staedte angesehen um die Bewertung nachvollziehen zu koennen, und habe z.B. bei der Stadt Aachen eine, hm, witzige Website gefunden, die kein TLS macht und OSM-Kartentiles von Wikimedia einbindet. Welche Rolle das fuer das Abschneiden hat, ist nicht klar.

Ich haette im Bereich Verwaltung auch gerne im Detail gesehen, wie die Maengelmelder bewertet werden, und wie ueberhaupt dieser Bereich bewertet werden soll. Geht es um bruchfreie Prozesse bis zu den ausfuehrenden Stellen? Sollen moeglichst alle gemeldeten Maengel schnell auf gruen/erledigt geschaltet werden (selbst wenn die zugrunde liegenden gemeldeten Maengel gar nicht erledigt sind)? Allein an diesem Beispiel zeigt sich schnell, wie tief man eigentlich in die Thematik eintauchen muesste, um ueberhaupt ein halbwegs realitaetsnahes Bild des tatsaechlichen notwendigen strukturellen Unterbaus als auch nur annaehernden Indikator fuer „Smartness“ zeichnen zu koennen. Ich habe ernsthafte Zweifel, dass der hierfuer notwendige Aufwand in die Erstellung des Index fliesst. Vielfach scheint hier auf ein freiwilliges Selbst-Reporting der Staedte gesetzt worden zu sein, was eher ein Indiz fuer gute Oeffentlichkeitsarbeit waere.

Im Bereich „IT und Kommunikation“ kommen wir zu einem immer wiederkehrenden Thema der Erhebung: Arbitraere Bewertungsschwellen, und nichtssagende Faktoren. „Public WLAN“ wird in die drei Bereiche Abdeckung, Verfuegbarkeit (hier ist unklar, ob in Abgrenzung zur Abdeckung z.B. ein Servicelevel gemeint ist) und „Begrenzung“ eingeteilt, wobei bei letzterem nicht aus dem Bericht hervorgeht, was genau damit gemeint ist. Vermutlich scheint aber eine Datenraten- oder Zeitlimitierung gemeint zu sein, denn wenn man sich die erhobenen Staedte betrachtet, bekommen reihenweise Staedte Top-Scores, die auch 2020 immer noch ohne Not vorgeschaltete Captive Portals fuer ihr Public WLAN betreiben. Meines Erachtens ist ein CaPo (bzw. wann es endlich abgeschafft wurde) derweil ein hervorragender Negativindikator fuer Leistungs- und Modernisierungsfaehigkeit. Witziges Kriterium waere z.B. auch, in welcher Frist man wenn man wollte einen Dienst wie eduroam ausgerollt bekaeme. Oder wie gut die dahinterliegende Infrastruktur skaliert. Aber auch hierfuer ist die gewaehlte Erhebung viel zu oberflaechlich.

Bei IoT-Netzwerken sieht die Bewertung aehnlich ausgewuerfelt aus. Hier haben sich 2019 zu 2020 offenbar auch die Kriterien geaendert: 2019 waren es die Anzahl der LoRaWAN-Gateways pro km² und ob es eine offizielle TTN-Community gibt. 2020 stehen „LoRaWAN (Gateways, offizielle Community)“ und „Narrowband IoT“ als Kriterien in der Liste. Fuer 2019 habe ich nicht einmal eine detaillierte Auflistung der gewerteten Punkte gefunden, hier gibt es im offiziellen Bericht nur eine Sammel-Punktzahl pro Bereich. Allein die Existenz einer oertlichen TTN-Community heisst aber nicht, dass es vor Ort einen intensiven Austausch mit z.B. der Stadt oder der Wirtschaft gibt. Es soll oertliche TTN-Communities geben, die sich intensiv ueberregional vernetzen, und wo man dennoch die oertliche Wirtschaft regelmaessig zum Jagen tragen muss, wenn es um die praktische Umsetzung von IoT jenseits von Buzzwords geht. Und dafuer, ob es vor Ort NB-IoT gibt, kann eine Stadt herzlich wenig – und wieso sollte sie auch, wenn es ein gutes freies LoRaWAN vor Ort gibt, das allen Menschen zur Verfuegung steht?

Damit sind wir dann auch bei der Reihe weiterer Faktoren, fuer die eine Stadt wenig kann und die noch absurder wirken. So wird die reine Existenz privatwirtschaftlicher Bike- oder Scooter-Sharing-Dienste in der Stadt bepunktet. Viel viel spannender waere hier, ob und wie die Staedte hier die Integration der Dienste in intermodale Auskuenfte als Open Data sicherstellen (wird nicht bepunktet, es gibt nur den Abschnitt „intermodale App“, auch wenn das die 181. Closed-Source-Wollmilchsau-App ohne jegliche Interoperabilitaet sein soll) oder ob sie die Statistikdaten gemaess MDS bekommen und auswerten (nirgendwo als Kriterium zu finden). Das waeren wirkliche Indikatoren fuer die Apdation datengetriebener Methodik. Aber nein, es reicht offenbar, einen Smart-Parking-Dienst irgendwo zu kaufen, um „Smart“ zu sein.
Dieser Tenor setzt sich auch im Abschnitt „Gesellschaft“ fort. Allein die Existenz eines CCC-Erfa, Code-for-Germany-Labs oder einer GI-Ortsgruppe(?) werden bepunktet. Es ist dabei egal, ob und wie Stadt und diese Zivilorganisationen miteinander interagieren – wer einen Erfa hat, bekommt Punkte. Ich fuehle mich auch hin- und hergerissen, ob ich mich ueber das Indikator-Kriterium „Existenz eines CfG-Labs“ freuen soll. Einerseits ist es schoen, dass dieses Engagement hier als wichtig hervorgehoben werden soll. Andererseits gilt genauso der Punkt dass die Interaktion zwischen Verwaltung und CfG der ausschlaggebende Punkt ist; und zudem gibt es auch Organisationsformen ausserhalb von CfG, die aequivalent wirken koennen. Die wesentlichen Grundsteine im Austausch zwischen Stadt und unserer Open-Data-Truppe wurden zwischen 2010 und 2014 gelegt – also noch bevor es CfG gab. Aus genau dieser Zeit stammt denn auch noch das Open-Data-Portal der Stadt Ulm, auf dem auch seit Jahren kaum viel mehr an Daten gelandet ist, und das muehsam haendisch gefuettert wird, anstatt automatisch – dem Bitkom reicht das fuer 90 von 100 Punkten, und wer mir erklaeren kann, warum, bekommt ein Eis von mir.

Es ist eigentlich muessig, weiter ueber dieses „Ranking“ zu schreiben, und es macht mir auch maessig Spass, weil die komplette Methodik intransparent und praktisch ueberhaupt nicht nachvollziehbar ist.

Die wirkliche Aussagekraft des Rankings erschliesst sich mir ueberhaupt nicht. Es handelt sich praktisch durchgehend allenfalls um Indizien, die Grundlage einer genaueren Beschaeftigung der tatsaechlichen Umsetzung in den jeweiligen Staedten sein koennten. Diese zu „Indikatoren“ hochzustilisieren halte ich fuer unlauter, und Staedte auf Basis solch einer kruden und teilweise ausgewuerfelt wirkenden Bewertung in eine Rangliste einzugruppieren macht die Liste faktisch wertlos. Wir sollten ihr eigentlich keine Bedeutung beimessen. Insofern liefert sie aber letztlich dann doch fatale Indikatoren: Wie viele Entscheider:innen und auch Journalist:innen solch einen „Index“ gar nicht fachlich zu bewerten in der Lage zu sein scheinen und ihn fuer bare Muenze nehmen. Schade drum.

stk

schlampig sortiertes Zeug, das ich schon immer mal sagen wollte.

Menschen, die auf Rankings starren

Was ist das ueberhaupt

Schreibe einen Kommentar Antworten abbrechen