Wenn man sich durch Gesetzestexte rund um Daten und ihre Verfuegbarkeit graebt, faellt einem irgendwann auf, dass da zwar von „Daten“ und auch „maschinenlesbaren Daten“ geschrieben wird – damit aber ganz unterschiedliche Bedeutungen verbunden sein koennen. Vor ein paar Wochen ist mir das wieder aufgefallen, als ich eine kleine Anfrage zum Stand von Linked Open Data in Hamburg (Drucksache 23/1881) zugeschickt bekam, die „maschinenlesbar“ geradezu wahllos interpretiert hatte.

In „Open Data, wie es zu Covid haette sein koennen“ bin ich im Januar 2022 schon ein wenig auf die verschiedenen Ebenen von Maschinenlesbarkeit eingegangen. Damit ich das nicht alles wiederholen muss, empfehle ich, den Artikel vorher zu lesen. Ich warte solange 🙂
Beim Blick in Gesetze fallen nun verschiedene Definitionen fuer Maschinenlesbarkeit auf. Manchmal steht da gar nichts dazu (aber immerhin in der Gesetzesbegruendung, so wie beim EGovG), manchmal gehen die Definitionen mehr ins Detail:
Die Behörden des Bundes mit Ausnahme der Selbstverwaltungskörperschaften stellen unbearbeitete maschinenlesbare Daten, die sie zur Erfüllung ihrer öffentlich-rechtlichen Aufgaben erhoben haben oder durch Dritte in ihrem Auftrag haben erheben lassen, zum Datenabruf über öffentlich zugängliche Netze bereit.
§ 12a EGovG
Im Sinne dieses Gesetzes […]
§ 3 Nr. 3 und 5–7 DNG
3. sind Daten vorhandene Aufzeichnungen, unabhängig von der Art ihrer Speicherung, […]
5. liegt ein maschinenlesbares Format vor, wenn die Daten durch Software automatisiert ausgelesen und verarbeitet werden können,
6. ist offenes Format ein Dateiformat, das nichtproprietär und plattformunabhängig ist und der Öffentlichkeit ohne Einschränkungen, die der Nutzung von Daten hinderlich wären, zugänglich gemacht wird,
7. ist förmlicher offener Standard ein in Textform niedergelegter Standard, in dem die Anforderungen für die Sicherstellung der Interoperabilität der Software niedergelegt sind,
Im Sinne dieses Gesetzes ist
§ 5 Abs. 3 LTranspG Rheinland-Pfalz
1. ein maschinenlesbares Format ein Dateiformat, das so strukturiert ist, dass Softwareanwendungen bestimmte Daten, einschließlich einzelner Sachverhaltsdarstellungen und deren interner Struktur, leicht identifizieren, erkennen und extrahieren können,
2. ein offenes Format ein Dateiformat, das plattformunabhängig ist und der Öffentlichkeit ohne Einschränkungen, die der Weiterverwendung von Informationen hinderlich wären, zugänglich gemacht wird,
3. ein anerkannter, offener Standard ein schriftlich niedergelegter Standard, in dem die Anforderungen für die Sicherstellung der Interoperabilität der Software niedergelegt sind.
Das koennte man amuesant finden, sorgt aber in der Praxis bisweilen zu ganz unterschiedlichen Auslegungen auch der Verwaltung beim Vollzug, was denn nun damit vom Gesetzgeber gemeint war. Und damit auch fuer eine sehr unterschiedliche Wiederverwendbarkeit: Kann ich diese „Daten“ auch ohne grossen Aufwand weiterverarbeiten, oder muss ich erst einmal viel Energie investieren, um sie in eine nutzbare Fassung zu bringen?
Diese Begriffsvielfalt ruehrt vermutlich auch von der Doppeldeutigkeit her, mit der wir im Alltag von „Daten“ sprechen. Wenn man nachfragt, was damit eigentlich gemeint ist, laeuft es meistens auf eine von zwei Definitionen hinaus:
- Irgendwas, was digital gespeichert ist und von einer Maschine interpretiert und dargestellt werden kann
- Eine Menge von Sachverhalten, die maschinell und automatisiert ausgewertet werden kann
Diese Unterscheidung sieht auf den ersten Blick etwas haarspalterisch und detailverliebt aus. Bei genauerem Hinsehen eroeffnet das aber ein besseres Verstaendnis fuer die fundamentalen Missverstaendnisse, die daraus im Alltag entstehen koennen – aber auch in der Gesetzgebung.
Sichtweise 1: Alles, was als Bits und Bytes daherkommt, sind Daten (Daten als Symbole)
Das ist die Trivial-Interpretation des Daten-Begriffs, die immer noch erstaunlich weit verbreitet ist. Auf der Smart-Country-Convention lauschte ich 2025 einem Panel zu Open Data, auf dem einer der Diskutanten behauptete, dass man ja den Fokus bei Open Data nicht nur auf „Daten-Daten“ richten sollte, sondern man koenne ja auch mit „Text-Daten“ arbeiten, weil das koenne ja kuenftig alles „die KI“ richten.
Dass man sowas auf solch einem Panel sagen kann, ohne irgendeinen Einspruch gegen die These oder die Erfindung des Begriffs „Daten-Daten“ zu erfahren, ist fuer sich schon beachtlich. Andererseits erklaert die weite Verbreitung dieser Vulgaerdefinition von Daten aber sowohl die teilweise sinnentstellende Verwendung von „Maschinenlesbarkeit“ als auch die Erwartung an „KI“ – gemeint waren hier wohl Spielarten von LLM – als Heilsbringer.
Konkret bis zum Ende durchgedacht, faellt mit der Definition „alles, was als digitale Symbole vorliegt, sind Daten“ naemlich auch der Begriff der Maschinenlesbarkeit in sich zusammen. In diesem Bild geht es allein darum, dass irgendetwas von der Maschine binaer entgegengenommen und dann auf irgendeine Weise einer Person dargestellt wird. Eine MP3 mit einem Musikstueck: Daten. Ein Foto: Daten. Eine eingescannte Tabelle, die dann als Bild in eine Worddatei eingefuegt wird: Daten. Dieselbe Word-Datei, als PDF ausgegeben (aber immer noch nur mit einem Scan der Tabelle): Daten.

Mit dieser Definition wird jede digitale Zeichenkette, die nicht gerade zufaelliges Rauschen ist, sondern auf irgendeine Weise als Dateiformat interpretiert und dargestellt werden kann, zu „Daten“. Das ist maximal die unterste Stufe der 5-Sterne-Definition fuer offene Daten: Ich kann das Ding ueber Computernetzwerke verschicken, ein Rechner kann es irgendwie darstellen, aber eine maschinelle Auswertung einzelner Sachverhalte darin bedarf einer menschlichen Interpretation.
Vermutlich kommt daher auch die Begeisterung fuer „die KI“: Nachdem man Sachverhalte ueber Jahrzehnte in Schrottformaten hin- und hergeschoben hat, die laufend menschlicher und haendischer Interpretation beduerfen und bei denen die automatisierte Weiterverarbeitung hoechst muehsam ist, haben wir jetzt eine Silver Bullet, die das bestimmt alles loesen wird. Also, zwar nicht deterministisch, sondern auf stochastischen Methoden basierend, aber es wirkt am Ende so, als komme ein Ergebnis heraus. Schliesslich schlaegt einem „die KI“ das voller Ueberzeugung vor.
Sichtweise 2: Daten als maschinell verarbeitbare Sachverhalte oder Fakten
Diese Sichtweise steht im Fuenf-Sterne-Modell fuer die Stufen 3–5: Es reicht nicht mehr, dass das Dokument nur irgendwie darstellbar ist, sondern es muessen auch einzelne Sachverhalte maschinell auswertbar sein. Das ist der Wortlaut, der sich beispielsweise im oben zitierten Landestransparenzgesetz RLP findet. Der Begriff „Daten“ steht damit nicht mehr fuer „da ist irgendwas binaer gespeichert“, sondern fuer „eine Menge von Sachverhalten, die eine Maschine ohne weiteres Zutun erkennen und auswerten kann“.
In der Praxis heisst das folgerichtig mindestens, dass auch einzelne Sachverhalte maschinenlesbar codiert sein muessen – das ist die etwas umstaendliche Definition von „eine Tabelle ist nicht nur ein Scan oder im PDF codiert, sondern liegt als weiterverarbeitbares CSV vor“. Idealerweise geht die „Identifizierung und Erkennung von Sachverhaltsdarstellungen“ durch Software aber noch weiter: Mit Linked-Data-Prinzipien koennen auch semantische Zusammenhaenge maschinell auswertbar codiert werden. Mehr dazu wie oben angerissen im Open-Data-bei-Covid-Artikel von vor vier Jahren.
Eselsbruecke: Nicht ueber Daten sprechen
Was ich gerne vorschlage, wenn Begriffe (z.B. „Digitale Souveraenitaet“ *hust) von verschiedenen Leuten ganz unterschiedlich und sich widersprechend verwendet werden, ist eine Runde Tabu zu spielen: Lass mal darueber diskutieren, aber niemand darf „Daten“ sagen.
Das hat mir geholfen, die altbekannte DIKW-Pyramide ein wenig anzupassen. Die schlaegt urspruenglich eine Hierarchie vor, wie man von „Data“ ueber „Information“ und „Knowledge“ zu „Wisdom” kommt. Da „Data“ aber jetzt verboten ist, ersetzen wir das durch „Facts“:

Zusaetzlich fuehren wir eine Y-Achse ein, die angibt, welche Ebene der Pyramide in Symbolen (also Bits und Bytes, als Ersatzbegriff fuer diese Definition von „Daten“) codiert ist. Das Beispiel des Scans einer Tabelle als Foto in einem PDF liegt digital vor, es handelt sich aber um Informationen fuer menschlichen Konsum, deren weitere maschinelle Verarbeitung einer Aufarbeitung bedarf. Wenn man genAI-Bro ist, kann man natuerlich sagen, dass einem das Lieblingssprachmodell das alles nach Excel uebersetzen kann. Das ignorieren wir aber mal, denn so eine Tabelle lag ja bereits einmal als Spreadsheet vor, vielleicht sogar im CSV-Format.
Wenn wir die Tabelle bekommen, sind einzelne Fakten oder Sachverhalte maschinell auswertbar und verarbeitbar. Ich muss zwar immer noch zuordnen, was in welcher Spalte zu finden ist und ggf. auch Einheiten zuordnen (stehen die Zahlen in Spalte F fuer Minuten oder fuer °C, bzw. welche Spalten von Zahlen und damit verbundenen Einheiten gehoeren logisch zusammen?), ich muss aber diese Sachverhalte nicht mehr fuer die Weiternutzung erst aufbereiten.
Exkurs: Ich habe mittlerweile auch wirklich eine Abneigung gegen den Begriff der „Veredelung von Daten“ entwickelt. Der ist eng mit der Behauptung von Daten als dem neuen Oel verbunden, die Clive Humby 2006 in die Welt gesetzt hatte: Wie Rohoel seien „Rohdaten“ an sich wenig nuetzlich, aber durch ihre „Veredelung“ koenne eine Vielzahl wertvoller Produkte geschaffen werden. Der Vergleich ist ohnehin aus vielen Gruenden total Banane, wenn man mehr als fuenf Minuten ueber ihn nachdenkt: Daten sind anders als Oel nicht-rivalisierende Gueter, sie verbrauchen sich nicht etc.pp. Und genauso ist es stets eine Entscheidung, auf welche Weise man Informationen speichern kann: Niemand wird gezwungen, „Daten“ erstmal als Rohoel oder Klaerschlamm oder Rizinusoel zu speichern, das man erst einmal irgendwie kompliziert „raffinieren“ muss. Man kann’s halt auch gleich von Anfang an moeglichst „raffiniert“ speichern, himmihergottnochamal.
So, geht schon wieder. Die von vorneherein „edle“ Speicherung bringt uns dann naemlich dazu, auch Semantik zu codieren und Linked-Data-Prinzipien zu verwenden. Damit werden die Zusammenhaenge zwischen Faktentupeln so codiert, dass sie als propositionales Wissen nach Regeln der Logik maschinell auswertbar sind – und im Gegensatz zu Sprachmodellen geht das deterministisch (es kommt jedes Mal dasselbe raus und nicht einmal dies und einmal das) und ohne dafuer Energiemengen ganzer Volkswirtschaften einfach so mal eben zu verbraten.
PS zu diesem Abschnitt: Ich bin heute nicht so ganz gluecklich damit, dass ich beim Zusammenbasteln der Darstellung das PDF auf Stufe 2 der angepassten DIKW-Pyramide gesetzt hatte. Das ergibt nur dann Sinn, wenn man diese „Information“-Stufe als „normalerweise nur durch Menschen auswertbar“ annimmt – oder eben zulaesst, dass man Sprachmodelle draufwirft, womit die maschinelle Auswertung hier aber im Gegensatz zu allen anderen Stufen nicht mehr deterministisch passieren kann.
Und was sagen jetzt der Gesetzgeber und die Verwaltung?
Ganz unterschiedliche Sachen. Das EGovG definiert den Begriff im Gesetz gar nicht, das Datennutzungsgesetz ist… interpretationsoffen, je nachdem, wie man interpretiert, ob „Daten“ nun Symbole oder Sachverhalte sind. In der Gesetzesbegruendung wird die Wichtigkeit von Maschinenlesbarkeit mit Verweis auf die Europaeische Open-Data-Richtlinie hervorgehoben und auch eine ausfuehrlichere Definition mit Verweis auf Erwaegungsgrund 35 der Open-Data-Richtlinie ausgefuehrt – dort steht naemlich:
Ein Dokument sollte als maschinenlesbar gelten, wenn es in einem Dateiformat vorliegt, das so strukturiert ist, dass Softwareanwendungen die konkreten Daten einfach identifizieren, erkennen und extrahieren können. Daten in Dateien, die in maschinenlesbarem Format strukturiert sind, sollten als maschinenlesbare Daten gelten. Ein maschinenlesbares Format kann offen oder proprietär sein. Es kann einem formellen Standard entsprechen oder nicht. Dokumente, die in einem Dateiformat kodiert sind, das eine automatische Verarbeitung einschränkt, weil die Daten nicht oder nicht ohne Weiteres aus ihnen extrahiert werden können, sollten nicht als maschinenlesbar gelten. Die Mitgliedstaaten sollten die Anwendung in der Union oder international anerkannter offener, maschinenlesbarer Formate — wo dies möglich und angemessen ist — fördern. Bei der Entwicklung technischer Lösungen für die Weiterverwendung von Dokumenten sollte gegebenenfalls der europäische Interoperabilitätsrahmen berücksichtigt werden.
Erwaegungsgrund 35 der Richtlinie (EU) 2019/1024
Das ist leider auch nicht so einfach verdaulich. Die Open-Data-Richtlinie spricht allgemein von „Dokumenten“ (egal in welcher Form) im Besitz oeffentlicher Stellen, d.h. vom Papierdokument ueber die Fachverfahrensdatenbank und andere digital codierte Dokumente bis zu einer Steintafel kann damit alles gemeint sein (Artikel 2 Nr. 6). „Daten“ werden nicht ausdruecklich definiert, durch die Definition der Maschinenlesbarkeit in Artikel 2 Nr 13 in Verbindung mit den Erwaegungsgruenden liegt aber nahe, dass damit die Definition „Daten als Sachverhalte“ innerhalb von Dokumenten gemeint ist:
Im Sinne dieser Richtlinie bezeichnet der Ausdruck […]
13. „maschinenlesbares Format“ ein Dateiformat, das so strukturiert ist, dass Softwareanwendungen konkrete Daten, einschließlich einzelner Sachverhaltsdarstellungen und deren interner Struktur, leicht identifizieren, erkennen und extrahieren können;
Ein Dokument kann also auch digital vorliegen, und Sachverhalte darin sind „Daten“. Warum man das nicht 1:1 so wie in der Open-Data-Richtlinie bzw. der Gesetzesbegruendung ins DNG und EGovG geschrieben hat, weiss ich auch nicht. Das DNG verwendet den „Daten“-Begriff in § 3 direkt nacheinander so, wie die Open-Data-Richtlinie zuerst „Dokumente“ und dann „Sachverhalte“ bezeichnet. Das ist unnoetig verwirrend und mir ist nicht klar, ob dahinter eine Absicht steckte oder ob das ein Unfall war.
Diese Unschaerfe hatte offenbar mittlerweile Folgen, weil andere wiederum das DNG als Vorlage fuer weitere Gesetze verwendet haben. Oben hatte ich § 5 LTranspG Rheinland-Pfalz zitiert, das woertlich die Definition aus PSI- bzw. Open-Data-Richtlinie mit den Sachverhalten uebernommen hatte. Meiner Lesart nach haette man dieses Landestransparenzgesetz ohne Probleme anpassen koennen, um damit auch Open Data abfruehstuecken zu koennen. Die Landesregierung hatte sich aber ohne Not dazu entschlossen, ein eigenes Open-Data-Gesetz zu stricken, weil sie zwischen Dokumenten „fuer menschlichen Konsum“ und Daten „fuer maschinelle Verarbeitung“ unterscheiden wollten. Dort steht als Definition nun nur mehr:
Daten sind vorhandene Aufzeichnungen, unabhängig von der Art ihrer Speicherung. […]
§ 3 ODGRP
Maschinenlesbar sind Daten, wenn sie in einem Format vorliegen, das ihre automatisierte Auslesung und Verarbeitung durch Software ermöglicht.
Der Gesetzesentwurf und seine Begruendungen sind noch an vielen anderen Stellen hanebuechen (ich durfte das auf Arbeit kommentieren und es fiel mir schwer, freundlich zu bleiben). Die Gesetzesbegruendung (PDF, Seite 36 „zu Absatz 4“) legt nahe, dass beim Entwurf Leute die Formulierungen aus dem DNG abgekupfert haben, ohne sie so ganz zu verstehen – so auch bei der Begruendung auf Seite 24, warum das schon alles so seine Richtigkeit habe weil’s ja ans DNG angelehnt sei. Dass dann auch noch davon gesprochen wird, dass Offene Daten deswegen so wertvoll seien, weil sie Grundlage fuers Training generativer KI-Modelle sein koennten, passt perfekt zum Rest des Gesetzes.
Grosse Teile der Antworten auf die kleine Anfrage in Hamburg, die Ausloeser fuer diese Ueberlegungen war, kann ich mir auch nur so erklaeren: Irgendwo hat man Definitionen gelesen, was „Daten“ und „maschinenlesbar“ sein soll, interpretiert dann das hinein, was sich auf die eigenen Vorstellungen mappen laesst und spielt reihenweise Fluesterpost, an deren Ende dann halt auch mal wirklicher Unsinn rauskommt. Verwaltungsdigitalisierung als Hoehlengleichnis oder so.
Was lernen wir daraus?
- Die Definitionen in der Open-Data-Richtlinie sind ganz okay…
- …wurden aber in EGovG und DNG ziemlich schludrig uebersetzt, so dass die Interpretation des Sinnzusammenhangs eigene praktische Erfahrungen im Umgang mit „Daten“ erfordert (also maschinelle Verarbeitung von Sachzusammenhaengen, nicht nur „Powerpoint und Excel klicken“)
- andere schreiben nun wiederum vom DNG ab
- vermutlich ohne die Definitionen in der Open-Data-Richtlinie verstanden zu haben
- das fuehrt zu seltsamen Antworten und unnoetigen Gesetzen und generell der Verfestigung von Bloedsinnsideen wie der Unterscheidung von „Textdaten und Daten-Daten“
- man sollte sagen koennen, was man meint, ohne den Begriff „Daten“ zu verwenden (als lustige Uebung fuer zwischendurch)
- (man sollte vielleicht auch mehr rausgehen oder in eine Huette im Wald ziehen)
- (aber das hat nichts mit dem Datenbegriff zu tun)
- auf jeden Fall sollten beim Staat viel mehr Leute arbeiten, die praktische Erfahrungen mit all diesem Zeug haben, damit sie bessere Gesetze dafuer schreiben und es besser praktisch in die Tat umsetzen koennen
- es koennte sich lohnen, die Formulierung im DNG nochmal zu praezisieren, damit da nicht weiter schludrig abgeschrieben wird
- alternativ (und langfristig sicher auch sinnvoll) koennte man diejenigen, die sowas schludrig abschreiben und sich nicht auskennen, sowas nicht mehr machen lassen sondern sie z.B. rausschicken oder in eine Huette im Wald ziehen lassen.





























