Schlagwort-Archive: Datenlizenz Deutschland

Open Data, wie es zu Covid haette sein koennen

Die Digitalisierung des Gesundheitswesens ist ein Trauerspiel. Die Datenlage zu den Auswirkungen der Omikron-Welle ist ein Desaster. Dabei ist eine gute Datenlage der Dreh- und Angelpunkt im Kampf gegen Omikron, kommentiert Eva Quadbeck. https://t.co/UhTLwZHdN7
— RND (@RND_de) January 23, 2022

Die Digitalisierung des Gesundheitswesens sei ein Trauerspiel, titelt das Redaktionsnetzwerk Deutschland. Nachdem man dem Reflex nachgegeben hat, „was, nur des Gesundheitswesens?“ zu rufen, dachte ich mir, man koennte ja mal das mit dem Aufschreiben des besseren Gegenentwurfs machen, der mir seit Monaten im Kopf rumspukt.

Tatsaechlich beobachte nicht nur ich die (Daten)lage seit geraumer Zeit mindestens mit Irritation. Lena Schimmel schrieb kurz vor Weihnachten einen ganzen Thread, dass sie selbst erschreckend lange die eigentlich vom RKI veroeffentlichten Daten ueber Sequenzierungen gar nicht erst gefunden hatte:

Okay, das ist jetzt… peinlich? Lustig? Beruhigend? Beunruhigend? Irgendwie alles davon:

Ich hab ja kürzlich die Sequenzierungen des RKI auf GitHub gefunden und viel Arbeit hinein gesteckt, aus den Sequenzen die Varianten zu bestimmen.

Zeigt sich: die stehen da schon drin. Jap.
— Lena Schimmel (@LenaSchimmel) December 23, 2021

Ich glaube, dass „wir“ als „die gesellschaftliche Open-Data-Lobby“ uns wieder viel viel mehr auf Linked Open Data als Ziel konzentrieren und das auch kommunizieren muessen. Bei all dem Einsatz, wenigstens CKAN oder irgendein Datenportal auszurollen, scheint das fernere Ziel ueber die Jahre immer mehr in Vergessenheit geraten zu sein.

Schon vom Nutzungsfaktor her duerfte dieses Ziel jedoch am Beispiel der Pandemie sehr klar zu vermitteln sein. Seit nun beinahe zwei Jahren setzen sich jeden Morgen viele DatenjournalistInnen an ihre Rechner und versuchen, aus den aktuellen Datenpunkten zum Infektionsgeschehen und den Impfungen Erkenntnisse zu ermitteln und diese nachvollziehbar aufzubereiten.

heute arbeite ich eigentlich nicht, aber das @rki_de fügt unnötige spalten ein, deren werte sich aus den vorhandenen daten berechnen lassen. pic.twitter.com/8uT9GarRzt
— yetzt (@yetzt) April 9, 2021

Ueber die Zeit hinweg ist es ein bisschen zu einem Running Gag geworden, dass das RKI dabei immer wieder mal Spalten vertauscht oder neue Daten hinzufuegt, so dass all die gebauten Parser auf die Nase fallen.

5-Sterne-Schema aus den 2000ern. Quelle.

Derweil koennte die Lage mit verlinkten – oder wenigstens semantischen – Daten deutlich einfacher ablaufen. Man kann sich die 5-Sterne-Treppe fuer offene Daten am Beispiel der RKI-Berichte recht anschaulich klarmachen:

In der ersten Stufe (die Daten sind irgendwie da) sind die Informationen zwar irgendwie als digitale Symbole codiert, das kann aber auch ein PDF sein, oder im schlimmsten Fall ein PDF eines eingescannten Dokuments. Eine Maschine kann diese Symbole uebertragen und die dadurch codierten Inhalte aufbereiten und anzeigen, aber die Datenpunkte darin sind im unpraktischsten Fall nur fuer Menschen lesbar.

(Exkurs. Wenn wir ueber „Daten“ sprechen, werden schon diese beiden Definitionen haeufig wild durcheinander geworfen. Einerseits die Symbole oder „bits und bytes“, die Information codieren – so wie die Buchstaben, die diesen Satz bilden. Andererseits Datenpunkte, die z.B. verarbeitbare Information ueber einen Temperaturmesswertverlauf abbilden.)

In Stufe 2 und 3 sind auch die Datenpunkte fuer Maschinen interpretierbar, weil die Informationen mehr oder weniger strukturiert in einem proprietaeren (Excel) oder offenen (CSV) Format vorliegen. Die Zusammenhaenge bzw. die Semantik erschliessen sich jedoch immer noch nur der menschlichen Betrachterin, die diese Struktur selbst in die automatisierte Auswertung einbauen muss. Wenn das RKI ohne Ankuendigung die Reihenfolge der Spalten aendert, kann ein einmal geschriebenes Auswertungsskript diese Aenderung nicht ohne weiteres erkennen und wird erst einmal falsche Auswertungen ausgeben, bis es auf die veraenderte Datenlage angepasst ist.
Das ist der Punkt, der in Stufe 4 behoben wird: Dann ist naemlich auch die Semantik als weitere Ebene im Datensatz codiert. Ich muss nicht mehr als auswertende Person aus dem Originaldokument in menschlicher Sprache lesen und dann fuer das Auswertungsskript festlegen, dass Spalte B das Bundesland und Spalte N die Zahl der in einem Impfzentrum vollstaendig geimpften Personen unter 60 Jahren ist. Ich muss stattdessen dem Auswertungsskript fuer das (zugegeben, einfachere) Beispiel des Bundeslands „nur“ mitgeben, dass es in irgendeiner Spalte eine Beschreibung gemaess Language, Countries and Codes (LCC) erwarten kann, und da wird dann ein passender ISO-3166-2-Code mit dabei sein. In welcher Reihenfolge die Spalten dann ankommen, und ob das jetzt der Impf- oder der Inzidenzbericht ist, spielt eigentlich keine Rolle mehr.

Die Fallzahlen kommen aus einem Repo, die Geoshapes aus einem anderen, auf das als Dependency verlinkt werden kann. Ausserdem: Ich kann keine Karten zeichnen (deswegen brauche ich Shapes)

Im Vollausbau der Stufe 5 verlinkter Daten wird vielleicht am besten deutlich, was man mittlerweile haben koennte. Anstatt dass man sich jeden Morgen ein hoffentlich aktualisiertes Excel-File der Inzidenzen und Impfinformationen herunterlaedt, reicht das Gegenstueck zu einem git pull – alles liegt als von Tag zur Tag (bzw Veroeffentlichungsschnappschuss zu Veroeffentlichungsschnappschuss) versionierter Datenframe vor. Wenn ich den Datensatz einmal ausgecheckt habe, kann ich lokal die Updates bekommen, die Unterschiede von Schnappschuss zu Schnappschuss diffen, und auch in der Historie beliebig zurueckspringen, um Zeitreihen zu machen.

Da aber sowohl die Semantik im Datensatz codiert ist, als auch Links auf andere Datenquellen vorhanden sind oder von mir hergestellt werden koennen, kann ich sehr viel mehr automatisieren, was ich sonst zu Fuss machen muesste: Wenn in irgendeiner Spalte die Landkreise mit Kreisschluessel codiert sind, und ich meine Auswertung per Karte machen will, kann ich aus einer passenden anderen Datenquelle automatisch die Geometrien des NUTS-3-Level in Deutschland laden und mit dem RKI-Datensatz verknuepfen.

Das ist jetzt rein aus der Nutzungsperspektive gesehen, weil das mit die anschaulichste ist. Eigentlich viel spannender ist aber, die Konsequenzen durchzudenken, was es bedeuten wuerde, die dafuer notwendige Infrastruktur im Betrieb zu haben. Das heisst, dass Datenpunkte und Informationen nicht haendisch in der Gegend herumgetragen und zu Fuss alleine in Excellisten vorgehalten und gepflegt werden. Dass es definierte Schnittstellen und Datenfluesse gibt, die auch die behoerdeninterne Nutzung von fuer Entscheidungen relevanter Daten erlauben, ohne dass diese muehsam und fehleranfaellig zusammengekratzt werden muessen. Und nicht zuletzt auch, dass wir dafuer die ueber Jahrzehnte aufgebauten technischen Schulden der oeffentlichen IT-Infrastruktur abgebaut und die Architektur vorausschauend sparsamer weil effizienter(!) geplant und umgesetzt haben.

Es ist total schade, dass so viele der Visionen aus den 2000ern durch das jahrelange Klein-Klein der Umsetzung, die zu schliessenden Kompromisse mit Verwaltungen, und die perverse incentives fuer „Umsetzungen“ verkaufende Dienstleister so tief in die metaphorischen Sofaritzen verschwunden und in Vergessenheit geraten sind.

The current public funding schemes geared towards “digitalization” and “innovation” constitute perverse incentives. In the long run, they are not only expensive, but will pile up massive amounts of technical debt vastly exceeding the investments. https://t.co/dsb8ovKMvq
— stefan (@_stk) January 29, 2022

Manches davon ist natuerlich auch mittlerweile ueberholten Ueberlegungen von damals geschuldet. In der 5-Sterne-Treppe wird beispielsweise als erster Schritt ein „OL“ angegeben, das fuer eine Offene Lizenz stehen soll. Das halte ich mittlerweile fuer ueberholt und teilweise durch die viele Wiederholung auch ein wenig schaedlich. Denn die Diskussion z.B. bei Infektions- oder Impfdaten ist eigentlich gar nicht, ob sie unter der internationalen Creative-Commons-Lizenz oder der nutzlosen und ersatzlos abzuschaffenden Datenlizenz Deutschland „lizenziert“ werden. Denn das sind Faktendaten, und die gehoeren allesamt gemeinfrei gemacht.

tl;dr: Bitte einmal Linked Open Data als Ziel, zum mitnehmen, und etwas mehr freundliche Radikalitaet.

Keine einfach-so-Lizenzen fuer Datensaetze

2 Antworten

Ich sitze gerade an einer internen Handreichung fuer die Bereitstellung von Open Data, und bin dabei wieder ueber die Unsicherheiten von Menschen im oeffentlichen Dienst gestolpert, welche Lizenz man denn fuer Open Data verwenden solle.

Das Problem ist: Eigentlich ist die Frage schon falsch. Denn die auf dem Urheberrecht aufbauenden Lizenzen sind ueberhaupt nur anwendbar, wenn es sich bei dem zu lizenzierenden Material um Werke im Sinne des Urheberrechts handelt, oder Datenbankherstellerrechte bestehen. Das duerfte aber regelmaessig bei reinen Faktendaten nicht der Fall sein, insbesondere nicht bei Messdaten.

Leider hat sich – vermutlich auch durch das ueber die Jahre entstandene Erklaermaterial, das gerne auch einfach mal CC-BY-Lizenzen hierfuer vorsieht – die Vorstellung in den Koepfen verfestigt, dass man Lizenzen „einfach so“ anwenden koenne, ohne dass hierfuer irgendwelche Voraussetzungen erfuellt sein muessen. Umso schlimmer wurde das durch die „Datenlizenz Deutschland“, die gar nicht erst offenlegt, auf welcher Rechtsgrundlage sie anwendbar sein soll (siehe, siehe auch).

Ich hatte hier im Blog letztes Jahr schon argumentiert, warum ich diesen Automatismus „Daten als Open Data herausgeben → beliebige Lizenz im Sinne der Open Definition anwenden“ bzw. die Frage „wem gehoeren die Daten“ fuer gefaehrlich halte. Und dass an den Anfang der Entscheidung die Frage gehoert, ob hier Urheberrechte vorliegen – weil wenn nein, gehoert als Label schlicht die CC-0 drauf, und gut ist.

Jochen vom OK Lab Berlin machte mich gestern auf zwei Schriften aus dem Open-Science-Umfeld aufmerksam, die zur Unterfuetterung dieser Argumentation gut geeignet sind, und die ich bislang noch nicht kannte.

Die Kurzform ist das Fact Sheet on Creative Commons and Open Science (2017). Sehr viel ausfuehrlicher ist „Rechtsfragen bei Open Science“ von Till Kreutzer und Henning Lahmann (2019), die detailliert am UrhG entlang die Rechtslage aufzeigt und auch in mehreren Kapiteln auf FAQ zu bestimmten Aspekten eingeht. Zielpublikum ist zwar eigentlich ein akademisches, das mit Forschungsdaten umgeht. Der Transfer auf Daten der oeffentlichen Hand sollte aber nicht schwer fallen.

Ein paar Gegenfragen zur Frage „wem gehoeren die Daten?“ (Kurze Antwort: Niemandem. Und das ist auch gut so.)

4 Antworten

Vielleicht ist das nur ein subjektiver Eindruck, oder ich reagiere darauf mittlerweile staerker, aber mir begegnen gefuehlt immer haeufiger beilaeufige Bemerkungen oder Fragen dazu, „wem die Daten gehoeren“. Beispielsweise bei der Frage, wer die Veroeffentlichung irgendwelcher Messdaten als Open Data freigeben koenne, „weil die Daten ja XY gehoeren“. Oder aber auch als vermeintliches Argument fuer technologische Souveraenitaet: Die oeffentliche Hand soll Dienste selbstbestimmt anbieten anstatt sie dem freien Markt ueberlassen, „weil dann gehoeren die Daten der IoT-Sensorik am Ende der Stadt, anstatt privatwirtschaftlichen Akteuren“.

Es ist wichtig, dass wir alle solche Bemerkungen immer und konsequent hinterfragen, wenn wir ihnen begegnen. Gerade die zweite Form ist naemlich eigentlich eine fast schon witzige Verdrehung dessen, was passiert ist: Privatwirtschaftliche Akteure haben sehr lange versucht, ein in der Realitaet gar nicht existierendes Eigentumsrecht an Daten in unsere Alltagssprache zu verankern – und indem wir ein Gegenmodell zur Privatisierung von Daten fordern, verbreiten wir ungewollt das Maerchen vom Dateneigentum.

Denn es ist vollkommen egal, ob oeffentliche Hand, Privatperson oder Wirtschaft: Daten (und hier meine ich insbesondere automatisiert erfasste Messdaten, aber auch schiere Faktendaten) koennen niemandem „gehoeren“. Und das ist auch gut und richtig so. Ein „Eigentum“ an Daten wuerde bedeuten, dass ich mit meinem Thermometer die Aussentemperatur messen und dann Dritten verbieten koennte, diesen Temperaturwert an andere weiterzugeben, nachdem ich ihn verraten habe. Und das waere fatal. Genausowenig kann und darf irgendwer mir verbieten oder nur unter bestimmten Auflagen erlauben, weiterzuerzaehlen, dass 768 Stufen aufs Ulmer Münster führen – auch wenn ich das aus einem (insgesamt urheberrechtlich geschuetzten) Buch oder der Wikipedia weiss (siehe auch).

Tatsaechlich kann die Verwertung und Verbreitung von Daten durch Dritte nur unter ganz bestimmten Bedingungen eingeschraenkt werden – beispielsweise aufgrund datenschutzrechtlicher Bestimmungen, meist aber aufgrund des Urheberrechts. Und nachdem sich neben des Begriffs des Dateneigentums auch die Annahme eingeschlichen hat, dass man Lizenzen (also Bedingungen und Einschraenkungen, zu welchen Konditionen Daten verarbeitet oder weiterverbreitet werden duerfen) einfach so anwenden kann (hier ist beschrieben, warum dem nicht so ist), halte ich es fuer ueberfaellig, diese Annahmen durch gezielte Nachfragen bei jeder Gelegenheit einem Realitaetscheck zu unterziehen.

Beispielfragen, die mir bislang eingefallen sind (und die ich bislang nie in exakt diesem Script abgespult habe, weil ich kein sadistischer Quaeler bin):

Was meinen Sie mit „gehoeren“?
Auf welcher genauen Rechtsgrundlage soll hier die Nachnutzbarkeit durch Dritte eingeschraenkt werden koennen?
Ich meine, auf welcher Rechtsgrundlage soll hier die CC-BY-Lizenz verbindlich gemacht werden koennen? Warum soll ein Dritter hier zur verbindlichen Namensnennung verpflichtet werden koennen?
Sie sagen schon wieder „gehoert“ – es gibt doch gar kein Eigentumsrecht an Daten, sondern nur bestimmte Immaterialgueterrechte. Bauen Sie hier auf das Urheberrecht auf?
Nach welcher Argumentation handelt es sich denn um ein geschuetztes Werk? (vgl. Kapitel 2.6 dieses Abschlussberichts, inline PDF)
Aber Faktendaten sind doch gar keine individuelle schoepferische Leistung (PDF), weswegen sollte hier ein Schutz nach § 2 Abs. 2 UrhG vorliegen?
Aber das Datenbankurheberrecht nach § 4 UrhG schuetzt doch nur die Form und Anordnung, nicht die Daten selbst. Und ueberhaupt: Ist die Anordnung der Daten hier wirklich eine schoepferische Leistung?
Sind Sie sicher, dass fuer das Live-Ausspielen eines aktuellen Messwerts Datenbankherstellerrechte nach §§ 87a ff. UrhG anwendbar sind?
Selbst wenn es so ein Eigentum gaebe: Wie wuerden sie das durchsetzen wollen? (PDF)
Kennen Sie das Gutachten der Justizministerkonferenz (PDF), dass ein Dateneigentum ueberhaupt nicht sinnvoll waere und oekonomisch keinen Nutzen haette?

Mit solchen (freundlich verpackten) Fragen bekommen wir hoffentlich bald sowohl die Idee vom Dateneigentum wie auch die Annahme von der Anwendbarkeit von „Datenlizenzen“ als magische Zaubersprueche etwas geradegerueckt. Interessanterweise scheint solche Fragen vor allem auf C-Level-Entscheiderebenen sonst kaum jemand zu stellen.

Das pwc-Gutachten fuer NRW zur Datenlizenz Deutschland

3 Antworten

Im letzten Post hatte ich angekuendigt, etwas auf das vom Land NRW bei pwc in Auftrag gegebene „Kurzgutachten“ zur sogenannten Datenlizenz Deutschland einzugehen.

Ich habe keine Ahnung, wie das zustande kam, aber ich kann mich des Eindrucks nicht erwehren, dass die dort Beteiligten die Welt der freien Lizenzen nicht so recht kennen, oder dass eventuell das gewuenschte Ergebnis schon vorher feststand.

Kurz und knackig: Die Zusammenfassung

Fangen wir einmal mit der Zusammenfassung auf Seite 4 an:

Gegenüber anderen Open Data-Lizenzen bietet die Datenlizenz Deutschland 2.0 den Vorteil, dass diese auf die Begrifflichkeiten des deutschen Urheberrechts ausgelegt ist und so keine zusätzlichen Auslegungsprobleme bereitet.

Diese Aussage ist in zweierlei Hinsicht bemerkenswert.

Zum Einen gibt es durchaus Open-Data-Lizenzen, die auf den europaeischen Urheberrechtsraum ausgelegt sind. Zum Entstehungszeitpunkt der DL-DE 1.0 gab es zwar die Creative-Commons-Lizenz noch in der Version 3.0, die z.B. kein Datenbankherstellerrecht nach dem europaeischen Rechtsverstaendnis kannte. Genau um diese Luecke zu beheben, wurde jedoch beispielsweise die ODbL entwickelt (hierzu spaeter mehr). Und die CC 4.0 ist ganz klar und von Anfang an auf Kompatibilitaet mit dem europaeischen Rechtsrahmen hin entwickelt worden.

In einer Broschuere von 2019 zu implizieren, dass die DL-DE allen anderen Open-Data-Lizenzen eine Passgenauigkeit auf den deutschen Urheberrechtsraum voraus habe, ist schlichtweg eine Falschaussage.

Zum Anderen ist spannend, dass hier behauptet wird, dass keine „zusaetzlichen“ (zusaetzlich wozu?) Auslegungsprobleme bereitet werden wuerden. Das steht in krassem Widerspruch zum naechsten Absatz:

Sie ist einfach strukturiert, knapp, und somit auch vom nicht rechtskundigen Anwender ohne vertiefte weitere Erläuterungen zu verstehen

Im letzten Post erwaehnte ich schon die Dreigliedrigkeit der CC-Lizenzen: Die fuer Laien verstaendliche Kurzfassung, die maschinenlesbare Fassung und den formellen Lizenzvertrag unter Berufung auf die anzuwendenden einschlaegigen Rechtsgrundlagen.

Die CC-Lizenzen bringen also durchaus eine einfach strukturierte, knappe, und explizit an Laien gerichtete Kurzfassung („human-readable summary“) mit sich, um mit wenigen Worten den Rahmen und die Bedingungen fuer die Nutzung zu umreissen.

Um aber auch in unklaren Faellen Rechtssicherheit und Verlaesslichkeit zu haben, gehoert bei den CC-Lizenzen die Langfassung dazu – die beispielsweise erklaert, warum diese Lizenz ueberhaupt in diesem Fall angewendet werden kann, worum es genau geht, dass keine Beschraenkungen der gewaehrten Rechte fuer nachfolgende Empfaenger zulaessig sind, wie es mit der Lizenzierung von Patent- oder Markenrechten aussieht, etc pp.

Hierzu schweigt sich die DL-DE aus. Komplett. Wer genaueres wissen will, hat einfach Pech gehabt. Nice!

Mit den beiden Datenlizenzen Deutschland steht zudem ein bereits abgestimmtes, vom IT-Planungsrat vorgeschlagenes Lizenzie-rungsregime zur Verfügung.

„Die Leute, die »aendert alle 90 Tage euer Windowspasswort und es muss folgende Zeichen haben« kauften, kauften auch:“

Die Verwendung anderer Open Data-Datenlizenzen ist grundsätzlich möglich. Im Hinblick auf die praktische Handhabung durch die Verwaltung wären damit aber signifikante Nachteile verbunden. Diese Nachteile ergeben sich im Regelfall aus der mangelnden Abgestimmtheit auf das deutsche Urheberrecht und der vergleichsweisen Komplexität der Regelungen dieser Lizenzen.

Wie oben beschrieben: Das ist schlicht und dreist gelogen. Andere Lizenzen sind nicht weniger auf das UrhG abgestimmt, sondern die DL-DE unterschlaegt, wie sie eigentlich im Detail mit dem UrhG korrespondiert. Die notwendigerweise zugrundeliegenden Regelungen, wie die DL-DE funktioniert, sind in der Praxis nicht weniger komplex – sie sind halt einfach bei der DL-DE nirgendwo aufgeschrieben, und damit fuer juristische Laien gar nicht erst zugaenglich.

Die Verwendung ausländischer Open Data-Lizenzen kann zudem im Einzelfall ausgeschlossen sein, soweit Regelungen dieser Lizenzen mit deutschem Recht nicht vereinbar sind. Dies gilt insbesondere für die regelmäßig vorgesehenen weitgehenden Haftungsausschlüsse, selbst wenn diese unter einen Anwendungsvorbehalt gestellt sind.

Das ist natuerlich eine besonders schoene Passage – deutsches Recht fuer deutsche Daten. Naja. Wie bereits mehrfach beschrieben faellt das Argument der Nichtanwendbarkeit „auslaendischer“ Lizenzen recht schnell in sich zusammen.

Sehr witzig finde ich auch, wie in Bezug auf die problematisierten Haftungsausschluesse sofort zurueckgerudert wird. Schliesslich finden sich im Legal Code der CC folgende Passus:

„Sofern der Lizenzgeber nicht separat anderes erklärt und so weit wie möglich, bietet der Lizenzgeber das lizenzierte Material so wie es ist und verfügbar ist an […]“, oder „Dort, wo Haftungsbeschränkungen ganz oder teilweise unzulässig sind, gilt die vorliegende Beschränkung möglicherweise für Sie nicht.“

(Das wird im Abschnitt 6.1 des Gutachtens dann auch eingeraeumt. Klingt halt weniger knackig.)

Anstatt die schoen designte Broschuere voller Unsinn zu bauen, haette man einen Boilerplate-Text entwerfen, der die CC-Lizenzen durch eine Erklaerung zur moeglicherweise doch vorliegenden Haftung und im idealfall sogar fuer die passende Attribuierung bei der Verwendung durch OpenStreetMap (oder auch andere) ergaenzt. Aber vielleicht war dafuer zu wenig Geld da, oder es sollte ein vorher feststehendes Ergebnis rauskommen.

Das faellt dann auch im direkt nachfolgenden Absatz auf:

Die Vorgaben der Datenlizenzenz Deutschland 2.0 mit Namensnennung zu Namensnennung und Quellenvermerk können allerdings mit anderen Lizenzregimen kollidieren […] Hier empfehlen wir ggf. Klarstellungen durch den Bereitsteller […], etwa im Hinblick auf die Möglichkeit der Nutzung der Contributor List von OpenStreetMap, um den Nutzerinnen und Nutzernn ausreichend Rechtssicherheit zu geben.

Ach. Ich will jetzt gar nicht auf die grundsaetzliche Problematik der OSM-Datenbanklizenzierung eingehen – aber wenn die DL-DE doch so einwandfrei fuer den deutschen Open-Data-Kontext angepasst ist, warum ist sie dann nicht von Haus aus fuer die Nutzung mit OSM geeignet? Ihr habt eine Lizenz speziell fuer ~~OSM~~ [Korrektur:] den deutschen Rechtsraum geschaffen, die aber dann nochmal ergaenzt werden muss, damit mit die groesste existierende OSM-Community (naemlich die deutschsprachige) mit unter ihr lizenzierten Daten arbeiten kann? Was ist denn das fuer eine Kack-Anpassung? 😀

Kapitel 2: Die Ausgangslage

Spannend ist im gesamten Gutachten, wie eben auch dem Kapitel ueber die Ausgangslage, dass das Vorliegen einer Werkqualitaet im Sinne des UrhG als notwendige Voraussetzung fuer die Anwendbarkeit einer auf dem UrhG basierenden Standardlizenz sehr nonchalant unter den Tisch fallen gelassen wird. So beginnt das Kapitel mit diesem Satz:

Werden Daten der öffentlichen Verwaltung als »Open Data« veröffentlicht, werden die Nutzungs- und Verwertungsrechte der Nutzerinnen und Nutzer an diesen Daten durch Nutzungsbedingungen festgelegt. Abruf und Verwendung der Daten stehen unter dem Vorbehalt der Einhaltung dieser Nutzungsbedingungen.

Alleine der zweite Satz ist ein kleines Feuerwerk, aus dem sich sicher eine schoene Diskussion im Medienrechtsseminar drehen laesst.

Aber schon der erste Satz ist als fuer die oeffentliche Verwaltung geschriebenes Gutachten fatal. Es bleibt hier vollkommen unklar, ob es sich um ein privatrechtliches Verhaeltnis zwischen anbietender Stelle und NutzerIn handelt (und was passiert dann eigentlich, wenn die NutzerIn vertragsbruechig handelt, die Daten entgegen der Vereinbarung einfach so an mich weitergibt und ich dann beliebige Dinge damit mache?), oder ob es sich (was anzunehmen ist) um einen Standardvertrag zur Uebertragung der Verwertungs- und Vervielfaeltigungsrechte handelt, wie das eben bei anderen Open-Data-Lizenzen (oder eben auch bei Free-Software-Lizenzen) der Fall ist.

Im weiteren Verlauf wird die „Vielfalt“ der verschiedenen Open-Data-Lizenzen bemaengelt und dass das ein Problem fuer die Open-Data-Proliferation sei. An der Stelle haette man durchaus einmal innehalten und reflektieren koennen, ob diese Situation durch die Einfuehrung zweier zusaetzlicher Lizenzen, die wenn dann nur in Deutschland Anwendung finden werden, irgendwie besser werden soll, aber ich glaube ich muss im weiteren Verlauf dieses Textes vielleicht ein Clownsemoji als Sarkasmuskennzeichner einfuehren. Noch viel dummdreister wird diese Passage aber dadurch, dass sie den Text Avoiding Data Silos als Fussnote und angeblichen Beweis dieser Behauptung heranzieht. Weder behauptet dieser Text, dass die Situation durch die Einfuehrung neuer Lizenzen besser wird. Noch, und das regt mich viel mehr auf, fliessen danach die Recommendation des Texts in das „Gutachten“ ein. Dort steht naemlich unter anderem:

Clarify if data falls under the scope of copyright, database rights, or similar rights.

Nichts davon ist in der DL-DE zu finden.

Consider copyright reform if the protection status of public sector information is not clear. This may include granting positive use rights for public sector information within copyright law instead of adding many exceptions to copyright.

Nichts davon haben der IT-Planungsrat oder sonstige Gremien auf den Weg gebracht. Stattdessen reibt man sich an der hundsvermaledeiten Datenlizenz Deutschland auf. Anstatt den passenden Rechtsrahmen zu bauen, um einfach, gut und rechtssicher Open Data in Deutschland vielleicht sogar generell im Rahmen von §5 UrhG als gemeinfrei veroeffentlichen zu koennen, wird eine Sonderlocke nach der anderen gedreht, die mit nichts kompatibel und handwerklich unzulaenglich ist. Man vergleiche hierzu auch die Stellungnahme von Mathias Schindler im Bundestags-Ausschuss Digitale Agenda von 2014(!)

If data is exempt from copyright and database rights, publish clear notices that inform users about their rights to freely reuse, combine and distribute information.

Nichts davon kann die DL-DE. Danke hier an @krabina, der im Kommentar zum vorigen Post richtigerweise darauf hingewiesen hat, dass die CC 0 besser nur dann verwendet werden soll, wenn es sich um urheberrechtlich geschuetztes Material handelt, das mit Absicht freigegeben wird, und bei nicht schuetzbarem Material die Public Domain Mark verwendet werden soll. Die DL-DE hat hier eine Zero-Lizenz, die nichts erklaert und nicht klarstellt, warum da jetzt Zero draufsteht.

Recommended solutions are the public domain dedication Creative Commons Zero and the Creative Commons Attribution 4.0 licence.

Ja. Das steht im Text, der per Fussnote als Beweis der Notwendigkeit genau des Gegenteils herangezogen werden soll. Weiter will ich darauf gerade gar nicht eingehen. Der gesamte Text ist als Handlungsempfehlung deutlich besser als das pwc-Ramschgutachten.

Der Vollstaendigkeit halber sei darauf hingewiesen, dass die europaeische Kommission nun auch die Creative-Commons-Lizenzen in Version 4.0 empfiehlt, auch fuer Daten. So von wegen Vereinheitlichung.

Kapitel 5: OSM und DL-DE und Lizenzfolklore

In Kapitel 5 werden diverse offene Lizenzen angefuehrt und verglichen.

Spannenderweise wird hier (mit angegebenem Abrufdatum Herbst 2018) bei der Creative Commons unter Verweis auf Spindler/Schuster/Wiebe, „Recht der elektronischen Medien“ (3. Aufl. 2015) immer noch angefuehrt, dass die CC-Lizenzen „für mehr als 50 Länder an die nationale Rechtslage angepasst und über-setzt“ worden seien. Das Buch liegt mir leider nicht vor; wohl aber der Verdacht, dass hier Bezug auf die CC in der Version vor der international passenden 4.0 genommen wird – also noch mit der bereits mehrfach thematisierten und mittlerweile weggefallenen Portierungsproblematik.

Weiter werden die Datenbanklizenzen PDDL, ODC-By und ODbL thematisiert. Hier wird an keiner Stelle auch nur mit einer Silbe erwaehnt, dass diese Lizenzen zu Zeiten der CC 3.0 dazu dienten, das mit der CC damals nicht abgedeckte Sui-Generis-Recht fuer Datenbanken im europaeischen Rechtsraum abzudecken. Zwar werden die Nutzungsbedingungen kurz umrissen, ein Gesamtbild des Zusammenspiels der verschiedenen Lizenzen wird aber nicht aufgezeigt. Es darf die Frage gestattet sein, ob es bei den ErstellerInnen des Gutachtens vorhanden war.

Im Folgenden wird es dann echt witzig:

Die dl-de/by-2-0 unterscheidet nicht zwischen Urheberrechten und Leistungsschutzrechten. Sie ist daher sowohl auf Datenbanken i.S.d. § 87a UrhG als auch auf Werke i.S.d. § 2ff. UrhG anwendbar.

WO STEHT DAS? WIE BEKOMME ICH DAS ALS ANWENDER HERAUS???

Sorry. Kurz durchatmen.

Das ist genau der Punkt: Ich persoenlich nehme selber natuerlich an, dass die DL-DE auf dem UrhG fusst, weil ich weiss, wie andere freie Lizenzen funktionieren. Das wird aber weder denjenigen explizit gemacht, die diese Lizenz vergeben (ist sie hier ueberhaupt einschlaegig?), noch denjenigen, die so lizenzierte Daten nutzen wollen. Ich kann nur nochmal auf den als Fussnote herangezogenen Text verweisen: “Clarify if data falls under the scope of copyright, database rights, or similar rights.” – das bleibt die DL-DE schuldig.

Der Rest des Kapitels geht dann sehr ausfuehrlich darauf ein, wann wo und wie die DL-DE nicht mit der OSM kompatibel ist. Wie oben beschrieben: Seltsam, wenn sie doch angeblich eine speziell angepasste Lizenz fuer Open Data in Deutschland ist, und es OSM sowie die Datenbereitstellung fuer OSM durch die oeffentliche Hand bereits vor der Erfindung der DL-DE gab.

Haftungsunklarheiten

In Abschnitt 6.1.1 wird nun endlich die CC BY in Version 4.0 mit der DL-DE BY verglichen, und bezeichnenderweise wird beiden gleich eingangs derselbe Rechteumfang zugesprochen. Oder anders gesagt: Sie sind hier offenbar funktional identisch. Es bleibt also die Frage offen, wofuer es die DL-DE ueberhaupt braucht.

Danach wird die eingangs angerissene Haftungsproblematik angerissen. Hier wird offenbar darauf herumgeritten, dass die DL-DE von vorneherein keine Haftungsausschluesse vorsieht, waehrend die CC 4.0 „soweit anwendbar“ die Haftung ausschliesst und das am Ende wieder passt, weil das ja nicht anwendbar ist. Die Konsequenz des Gutachtens ist daraufhin:

Dies gilt allerdings nur, soweit sich auch die weitere Nutzung nach deutschem Recht richtet. Im Übrigen ist von einer Inkompatibilität auszugehen.

Von den GutachterInnen wird dadurch offenbar geflissentlich der Teilsatz „Sofern der Lizenzgeber nicht separat anderes erklärt“ im Legal Code der CC unter den Tisch fallen gelassen. Die Schlussfolgerungen verstehe ich jedenfalls ueberhaupt nicht.

An der Stelle pausiere ich die Kommentierung, weil der Zug gleich in Hamburg ankommt und mich der restliche Text aufregt. Mehr folgt.

Die Datenlizenz Deutschland gehoert auf den Muell. Jetzt.

6 Antworten

Leider schwappt mir der Unsinn gerade wieder auf den Schreibtisch, obwohl ich eigentlich gerade eine coole Veranstaltung mitzugestalten habe. Mittlerweile ist die Geduld aber einfach am Ende.

Worum es geht: Die sogenannte Datenlizenz Deutschland. Die wurde 2013 zu unklaren Kosten als nationale Sonderloesung entwickelt und war in der ersten Version einfach vollkommen inkompatibel zu allen bestehenden Lizenzen und fuer Open Data schlicht ungeeignet, was auch direkt zu umfangreicher Kritik fuehrte. Nicht nur war sie vollkommen schwammig und unklar formuliert, sie erlaubte auch eine „Freigabe“ von Daten nur zu nichtkommerziellen Zwecken. Dieses Prinzip ist auch bei den Creative-Commons-Lizenzen hochproblematisch (und gehoert eigentlich auch abgeschafft, naja).

Auf die Kritik hin wurde im weiteren Verlauf eine Version 2.0 geschaffen, die nur mehr die Varianten Zero (Kennzeichnung als gemeinfrei bzw. in der Konsequenz der Rechtedurchsetzung damit gleichzusetzen) und obligatorische Namensnennung vorsah. Und leider wirkte die zivilgesellschaftliche Beteiligung daran, den kolossalen Unsinn der Version 1.0 geradezubiegen, wohl so, als wuerde man diesen unnoetigen nationalen Alleingang billigen. Obgleich beispielsweise die OKF ausdruecklich schreibt:

Wir haben immer, ausdrücklich und grundsätzlich von der Schaffung einer nationalen Open-Government-Data-Lizenz abgeraten und tun das auch weiterhin. Wir freuen uns zwar sehr, dass die Daten-Deutschland-Lizenz 2.0 jetzt konform mit der Open Definition ist, als Insellösung ist es aber natürlich nur die zweitbeste Lösung. Die erstbeste Lösung ist und bleibt natürlich die Verwendung der offenen Versionen der Creative Commons Lizenz.
https://okfn.de/blog/2014/09/erfolg-fuer-open-data-datenlizenz-deutschland-version-2-0-ist-eine-offene-lizenz/

Nun sind fuenf Jahre vergangen, und der langfristige Flurschaden der unnoetigen sogenannten Datenlizenz Deutschland wird deutlich. Wer beispielsweise auf govdata.de nach Datensaetzen unter DL-DE Namensnennung sucht, duerfte etwas erstaunt sein. Finden sich dort doch beispielsweise CSV-Listen von Projektstandorten. Oder Auflistungen von AbsolventInnen nach Kreisen. Oder Umsaetze von Unternehmen.

Und jetzt mal bloed gefragt: Warum genau sollte mich die Lizenz in diesen Faellen zur Nennung der Quelle verpflichten koennen? Die Creative Commons erklaeren in ihrer FAQ, dass ihre Lizenzen – genau wie Freie Softwarelizenzen – das Urheberrecht nutzen, um genau dann, wenn es sich um ein urheberrechtlich geschuetztes Werk handelt, per Standardvertrag die Nachnutzung (Verbreitung, Vervielfaeltigung, etc) explizit und unter bestimmten Bedingungen zu erlauben. Und weil das bei Creative Commons auch handwerklich gut durchdacht und gemacht ist, besteht die Lizenz aus drei Schichten: Der Kurzfassung fuer Laien, einer maschinenlesbaren Fassung, und einer ausfuehrlichen Fassung fuer JuristInnen, die auf die Details und die rechtlichen Grundlagen der Lizenz eingeht. Wer Zweifel hat, kann also in der Langfassung herausfinden, ob diese Lizenz ueberhaupt fuer einen Datensatz Anwendung finden kann, oder ob ein so lizenzierter Datensatz auch in einem angenommenen Spezialfall genutzt werden kann.

Die Datenlizenz Deutschland besteht dagegen nur aus der Kurzfassung. AnwenderInnen wird nicht klargemacht, dass die Namensnennung-Version ueberhaupt nur benutzt werden kann, wenn es sich beim zu lizenzierenden Datensatz um ein urheberrechtlich geschuetztes Werk handelt. Und so schleicht sich nun seit fuenf Jahren offenbar die Ansicht in die oeffentliche Verwaltung, dass es sich bei Datenlizenzen nicht etwa um Standard-Vertraege auf Basis des Urheberrechts handelt, sondern um magische Zaubersprueche, die man ohne weitere Grundlage einfach so nur aussprechen muss, und dann muss jemand einen Herausgebernamen nennen. Das ist halt einfach Quatsch.

Unterstuetzt wird die Datenlizenz derzeit vor allem noch durch ein vom Land NRW in Auftrag gegebenes, von PWC erstelltes „Rechtliches Kurzgutachten“ vom Februar 2019, bei dem ich mich frage, ob daran wirklich JuristInnen beteiligt waren – und wenn ja, ob sie sich je zuvor mit Freien Lizenzen befasst haben. Aber das wird wohl demnaechst ein weiterer Blogpost werden muessen.

TL;DR: Die Datenlizenz Deutschland ist handwerklich schlecht gemacht. Sie haelt die oeffentliche Verwaltung in einem halbinformierten Zustand und sorgt reihenweise zu Schutzrechtsberuehmungen. Sie hat seit der Creative Commons 4.0 keine Daseinsberechtigung mehr und gehoert ersatzlos gestrichen.