Du bist ein neutraler, sehr sorgfältiger Assistent zur Vorprüfung von Genehmigungsverfahren. Du prüfst nur logische/inhaltsbezogene Konsistenz von Aussagen; keine rechtlichen, fachplanerischen oder normativen Entscheidungen.
05-modulcluster/modul-plausibilitaet-pruefung/src/workflows/check_logic_wf/prompts/risk_screener_prompts.py
Seit einer Weile trommelt das deutsche Digitalisierungs- und Staatsmodernisierungsministerium fuer das „Agentic-AI“-System „SPARK“, das auch Teil des Deutschlandstack sein soll (Linkedin-Post von Markus Richter). SPARK soll nach Eigenaussage des BMDS die Prüfung von Antragsverfahren vereinfachen:
Die KI trägt dazu bei, Verwaltungsverfahren zu beschleunigen und Beschäftigte in der öffentlichen Verwaltung bei zeitaufwändigen Tätigkeiten wirksam zu entlasten.
Die jetzt veröffentlichten Module bilden typische Kernaufgaben in Planungs- und Genehmigungsverfahren ab. Dazu gehören die Extraktion relevanter Informationen aus Antragsunterlagen, die formale Vollständigkeits- und Plausibilitätsprüfung sowie unterstützende Funktionen für Verfahrensübersichten, Nachreichungen und Kommentierungen.
Die Basis bildet eine mit KI-Agenten unterstützte Rechtsdogmatik, welche an Gesetzesdatenbanken angeschlossen ist und eine automatisierte Normendekonstruktion und juristische Bewertungsmechanismen beinhaltet. Weitere Module zur materiellen Prüfung, rechtlichen Bewertung und Beschlusserstellung folgen im weiteren Jahresverlauf. Die KI-unterstützten Module bereiten die Information für die Sachbearbeitenden in den Genehmigungsbehörden auf. Die Sachbearbeitenden treffen anschließend die Entscheidung.
Pressemitteilung 17/2026 des BMDS vom 1. April 2026
Jetzt koennte man an viele der Aussagen des BMDS ein [citation needed] anfuegen, z. B. an die sehr undifferenzierte Aussage, dass „die KI (sic)“ dazu beitrage, Verwaltungsverfahren zu beschleunigen. Es lohnt sich aber, fuer eine weitere Einordnung dem tatsaechlich existierenden System einmal unter die Haube zu sehen. Aus aktuellem Anlass hatte ich endlich die Zeit und die Verfassung, endlich einmal das seit dem 31.3. oeffentliche Repository auf openco.de zu sichten, in dem das System „lizenzfrei“ (korrekt: unter freier EUPL-Lizenz und den Lizenzen der verwendeten F/LOSS-Bausteine) veroeffentlicht wurde. Der PStS Thomas Jarzombek hatte unlaengst im Digitalausschuss dazu eingeladen, „sich die Sourcecodes mal anzugucken“ (in der Aufzeichnung ab 05:37), also bin ich der Einladung mal gefolgt.
Und ich muss ganz offen gestehen: Ich bin erstens nicht beeindruckt. Und zweitens geradezu erschuettert, dass ich keine journalistische Quelle und keine weitere Fundstelle gefunden habe, in der andere der Einladung von Jarzombek gefolgt sind und wo das System in den vergangenen fuenf Wochen einmal begutachtet wurde.
Was macht SPARK?
Du bist ein juristischer Fachassistent für Infrastruktur- und Umweltrecht.
05-modulcluster/modul-inhaltsextraktion/src/workflows/hypothetical_questions/prompt.py
Deine Aufgabe ist es, hypothetische Fragen zu generieren, die ein Benutzer stellen könnte, um den Inhalt des folgenden Textabschnitts zu finden.
Aus der oeffentlichen README.md wird nicht auf den ersten Blick klar, was das System unter der Haube macht. In der docker-compose.yaml findet man abgehangene Systeme wie ElasticSearch, Postgres, Prometheus und temporal, die vergleichsweise neue Vektorsuchmaschine qdrant und einen Monitoring-/Visualisierungsstack rund um Grafana. Die weiteren Komponenten kleben u.A. einen litellm-Proxy und unoserver zusammen – jeweils zusammen mit ihren jeweiligen Abhaengigkeiten.
In den Readmes der „Kernmodule“ modul-inhaltsextraktion, modul-formale-pruefung und modul-plausibilitaet-pruefung wird ueber Abbildungen von Prozessgraphen etwas klarer, was das System unter der Haube mit den dort eingeworfenen Antragsdokumenten tun soll:
- Im ersten Schritt werden die vorliegenden Dokumente – genannt sind DOCX, PDF und PPTX(dafuq!) – nach Markdown konvertiert. Dafuer wird offenbar ein vollstaendiges LibreOffice verdockert, das aktuell mit einer CVE daherkommt (via Thomas Fricke). In dem Schritt wird ueber die per litellm eingebundenen LLMs versucht, Bilderkennung zu betreiben, in PDF/Word/Powerpoint-Tabellen gefangene Daten fuer maschinelle Auswertbarkeit umzuformen, die Texte zusammenzufassen, und Aussagen in die Vektordatenbank fuer eine spaetere Auswertung mit qdrant zu werfen. Ausserdem wird versucht, die Struktur/das Inhaltsverzeichnis aus den vermutlich Kraut-und-Rueben-formatierten Dokumenten zu ermitteln.
- Im zweiten Schritt wird das verwendete LLM gepromptet, die Struktur der Dokumentensammlung sowie die ermittelten Inhaltsverzeichnisse sowie die im ersten Schritt generierten Zusammenfassung mit einer „Musterloesung“ zu vergleichen. Damit sollen fehlende Dokumente oder fehlende Abschnitte in der TOC-Struktur erkannt werden. Wohlgemerkt soll das alles ueber Prompt-Massage passieren, a la „Du bist ein Experte für die Analyse von Planfeststellungsunterlagen.“
- Danach soll das System den Antrag auf Plausibilitaet pruefen – einerseits um interne Inkonsistenzen zu finden, andererseits offenbar auch wieder mit einem Vergleich mit einer Musterloesung. Fuer die interne Konsistenzpruefung werden z.B. die vorher in Vektoren uebersetzten „Claims“ miteinander verglichen, das LLM soll dann abweichende Cluster analysieren und die Abweichungen wieder in menschliche Sprache ausformulieren. Schoener Prompt an anderer Stelle im Modul: „Finde potenziell konfliktträchtige Aussagepaare früh, ohne Fakten zu erfinden“.
Die in der Eigendarstellung behauptete „Rechtsdogmatik“ und den „Anschluss an Gesetzesdatenbanken“ konnte ich bei meinem Blick unter die Haube nicht finden. Das scheint sich allein auf die Prompts und ein wenig RAG auf Gesetzestexten zu beschraenken. Und angesichts des Track Records von LLM bei der Interpretationsfaehigkeit von Gesetzen ist das schon ein wenig haarig.
Besonders hervorhebenswert finde ich den Troubleshooting-Hinweis im Modul fuer die Plausibilitaetspruefung, was passiert, wenn man sie mehrfach durchfuehrt:
Inconsistent Results Between Runs
05-modulcluster/modul-plausibilitaet-pruefung/README.md
LLM outputs are non-deterministic — results may vary between runs. Output quality is significantly affected by model choice.
Ja natuerlich sind LLM nicht-deterministisch. Das liegt in ihrer Natur. Das ist der Grund, weswegen die Verwendung von stochastischen Systemen wie genAI fuer Verwaltungshandeln sowieso grundsaetzlich fragwuerdig ist – denn die Verwaltung soll berechenbar, normentreu, nachvollziehbar und nach Prinzipien wie dem Gleichheitssatz arbeiten. Die Verwendung von LLM als „Unterstuetzung“ fuer diese Prozesse stellt alle diese Grundsaetze in Frage – mehr u.a. hier.
Aber schon der allererste Schritt, die Umwandlung von Dokumenten im DOCX-Format und vergleichbaren Datengefaengnissen nach Markdown, hat eine genauere Betrachtung verdient.
Eine teure Loesung fuer selbstgewaehlte technische Schulden
„project_applicant“: {{
05-modulcluster/modul-inhaltsextraktion/src/workflows/base_metadata/prompt.py
„value“: „Nordwind Infrastruktur GmbH“,
„source“: „Die Nordwind Infrastruktur GmbH als Vorhabenträger beantragt…“
}}
Ich bin immer wieder erstaunt, an wie vielen Stellen mir bei Vorschlaegen fuer die Verwendung von genAI der Umgang mit in Office-Dokumenten eingesperrten Informationen begegnet ist. Mit SPARK scheint man das „Problem“ zu loesen versuchen, dass die Verwaltung seit Jahrzehnten nicht etwa digitalisiert wurde, sondern lediglich vorherige Formblaetter „elektrifiziert“ hat, so dass man sie nun mit Office-Produkten am Rechner ausfuellen kann anstatt mit Schreibmaschine.
Dokumente liegen dann zwar digital vor, sind aber weiterhin so konstruiert, dass sie vor allem fuer den menschlichen Konsum gedacht sind: Texte, Tabellen und Illustrationen sind so aufbereitet, dass sie von der Maschine lediglich dargestellt und dann von Menschen analysiert und interpretiert werden sollen. Natuerlich bindet das menschliche Arbeit – denn obgleich beispielsweise eine Tabelle urspruenglich maschinell interpretiert und ausgewertet werden konnte, spaetestens mit der Konversion dieser urspruenglich vorliegenden Daten nach PDF wird das vollkommen unnoetig erschwert.
Abgesehen davon, dass man Antragsverfahren sowieso deutlich verschlanken und abspecken sollte – schon die Konversion der Office-Gefaengnisse nach Markdown als ersten Schritt legt nahe, dass man Antraege auch direkt in Markdown schreiben koennte.
Das ist (trotz existierender WYSIWYG-Editoren) fuer viele vermutlich ungewohnt. Aber auch das liegt letztlich nur daran, dass wir nunmehr seit 25 Jahren Jugendlichen in der Schule Office-Produkte als Standard fuer „speichere Informationen ab“ beibringen, ohne Ruecksicht auf Konzepte wie Datenstrukturen und Maschinenlesbarkeit. So wie es durch „Business-Standards“ wie Outlook und Co. vollkommen normal geworden ist, E-Mails sinnlos mit TOFU zu beantworten, haben wir uns auch daran gewoehnt, Excel als Layouttool zu missbrauchen und fuer jeden denkbaren Text irgendein Office-Dokument aufzumachen – und da ist es eigentlich egal, ob das dann MS-Office, LibreOffice oder die allgegenwaertige Google-Suite ist, obwohl es oft viel bessere Werkzeuge gaebe (siehe auch: Markdown ate the World).
Wuerde ein Antragsformular nicht nur als ausfuellbares Office-Dokument vorliegen, das selbst schon keine Ruecksicht auf die vorgesehene Dokumentenstruktur mit TOC legt. Sondern wuerde man auf eine Vorlage mit wohldefinierter Datenstruktur zurueckgreifen. Dann liessen sich gar nicht so wenige Teile einer Vollstaendigkeitspruefung schon direkt mit einem sehr, sehr kleinen Python-Script umsetzen. Ob das dann Markdown oder eine andere Art von Formular ist: Geschenkt. Man koennte auch ganz kecke, ausserhalb der Verwaltung seit Jahrzehnten verbreitete Methoden wie die Verknuepfung mit eindeutigen Identifiern fuer Firmen, Orte oder sonstige Dinge verwenden, um nicht auf die Interpretation von Freitexten durch LLM angewiesen zu sein.
An der Stelle koennte man auch total davon profitieren, wenn der Staat als Garant fuer verlaessliche Informationen moeglichst viele solcher Informationen bereits seit Jahren eineindeutig identifizierbar gemacht haette – beispielsweise Paragraph X in Gesetz Y in der Fassung von (hier Datum einsetzen). Und auch eine automatisierte Vollstaendigkeitspruefung, anstatt dass diese „Wochen spaeter vom Sachbearbeiter“ erfolgt (Aufzeichnung 11:11 ff.) koennte ganz ohne LLM und Agentic AI laengst Realitaet sein.
Das hat der Staat aber nie in Angriff genommen. Sondern laesst die fossilisierten Schichten historisch gewachsener Office-Dokumente einfach auf sich beruhen, und fuegt nun einen Bohrturm mit einem Rudel von LLM hinzu, um mit viel Energieaufwand diese fuer Menschen geschriebenen Dokumente stochastisch fehlerbehaftet analysieren. Anstatt den ganzen Bums mal aufzuraeumen und solche Pruefungen wenigstens teilweise deterministisch und mit einem Bruchteil des Aufwands vornehmen zu koennen. Das wuerde am Ende auch den Antragstellenden helfen.
Sonstige Beobachtungen
Wohlwollend koennte man sagen: Da hat ein Dienstleister zwei Handvoll F/LOSS-Komponenten zusammengeklebt, um ein wenig (stochastische) „Analyse“ mittels herunterladbarer Freeware-LLM ueber Kraut-und-Rueben-Dokumente laufen zu lassen. Bislang weiss ich nicht, was das gekostet hat – auf FragDenStaat habe ich zwar eine sehr interessante Anfrage zu den Chatverlaeufen des Digitalministers mit KI-Chatbots gefunden, deren Antwort wiederum eine ganze Reihe von Rabbit Holes aufmacht, aber keine Anfrage ueber das SPARK-Projekt. Das habe ich natuerlich sogleich behoben. Nachtrag: Politico berichtete am 17.4.2026 hinter Paywall, dass das Projekt bis dahin rund 96 Millionen EUR gekostet habe, danke Ben Burmeister fuer die Ergaenzung.
Dass das Projekt unter EUPL auf Opencode gelandet ist, ist angesichts seines Aufbaus auch nur konsequent. Der Beitrag des Projekts sind die notwendigen Skripte, um die einzelnen F/LOSS-Bausteine zu einem Workflow zusammenzukleben. Die eigentliche Betriebslogik kommt aus den Prompts und den verwendeten Freeware-LLM, das Projekt selbst ist nur „Boilerplate und docker compose“.
Weniger wohlwollend koennte man auf handwerkliche Regeln zu IT-Sicherheit blicken. Thomas Fricke machte mich auf mehrere bemerkenswerte Aspekte aufmerksam: An ganzen 17 Stellen wird in Dockerfiles zur Laufzeit mit pip install etwas nachinstalliert – hauptsaechlich uv (je nach Stelle in den Versionen 0.5.27 und 0.9.6, okay), aber auch unoserver, eine ganz bestimmte Version von pip, setuptools und litellm[proxy]. Mit dem Vulnerabiltiy-Scanner grype fand Thomas eine ganze Reihe von vulnerabilities, darunter eine kritische CVE in glibc.
Das System enthaelt zwar eine ruehrige „Prompt Defense“, die in den zu verarbeitenden Dokumenten eingebaute Prompt Injections unterbinden soll – ihrerseits als Prompt an das zu verwendende LLM gerichtet. Ob und wie das System ueberhaupt auf moegliche Angriffsvektoren getestet wurde, bleibt aber vollkommen unklar. Wer weiss, was passiert, wenn ein Antrag mal eine als Gedicht getarnte Prompt Injection enthaelt. Der Vollstaendigkeit halber sei erwaehnt, dass kurz vor Veroeffentlichung des SPARK-Repos ein Supply-Chain-Angriff in LiteLLM bekannt wurde.
Zielmarken, Vibe Evaluation und (keine) journalistische Einordnung
Ueberhaupt wuerde mich interessieren, ob es konkrete Pruefmarken gibt, anhand derer man den Erfolg oder Nicht-Erfolg des Systems ueberhaupt messen koennen soll. Gab es Tests, wie haeufig das System etwas falsch positiv oder falsch negativ geprueft hat? Ueberhaupt irgendeine Art von Stresstest, um moegliche Fehlerquoten zu ermitteln? Welche Fehlerquote haelt das BMDS fuer solch ein System ueberhaupt fuer akzeptabel? Gab es einen Sicherheitsaudit? Eine Risikobewertung, in welchem Umfang Antraege falsch beschieden werden koennten und welche Kosten das verursacht? Wird der Einsatz des Systems evaluiert? Nach welchen Kriterien?
Und gibt es eine Messung, wie viel Arbeit tatsaechlich durch das System ueberhaupt eingespart werden kann? In der Anhoerung im Digitalausschuss fragte Rebecca Lenhard, worauf sich die Einschaetzung von Minister Wildberger stuetze, dass sich Antragsverfahren durch Agentic-AI-Systeme wie SPARK „um bis zu 80% beschleunigen lassen“ (ab 17:29 in der Aufzeichnung). Die Antwort: Das seien die Erfahrungen des Projektteams von SPARK. Das klingt nicht nach einer systematischen Analyse, sondern nach anekdotischer Evidenz. Ein „Argument“ von Jarzombek war, dass vorher Bezirksregierungen im Rahmen von Einwendungen „Briefe oeffnen“ mussten – anscheinend hilft Agentic AI kuenftig auch dabei, per Brief eingehende Einwendungen zu oeffnen, man weiss es nicht. Wer Informatiker*in ist und unter niedrigem Blutdruck leidet, sollte unbedingt den Teil der Fragerunde mit Sonja Lemke ab Minute 20:40 ansehen, danach ist man definitiv kuriert.
Abschliessend muss ich nochmal wiederholen: Ich bin ernsthaft entsetzt, dass ich auch nach Aufruf auf Mastodon keine einzige Quelle gefunden habe, in der das SPARK-Repo auch nur einem kursorischen Blick in den Quelltext ausgesetzt wurde. Das ist wirklich erschreckend und ein riesiges Warnsignal fuer das Auseinanderdriften der Erfahrung-mit-IT-und-Daten-Bubble und der Netz-und-Digitalpolitik-Bubble. Man kann sehr viel Geld fuer von FOMO lebenden, taeglich erscheinenden Digitalpolitik-Journalismus-Newslettern ausgeben, die mittlerweile (hinter der Paywall) mit die letzten Outlets fuer die journalistische Begleitung der mittlerweile mit einem eigenen Ministerium ausgestatteten Digitalpolitik sind – und niemand dort hielt es offenbar fuer geboten, jemanden mit praktischer Erfahrung mit so etwas mal in dieses Repo schauen zu lassen. „Transparenz“ wird damit zur Nebelkerze: Das BMDS veroeffentlicht regelmaessig irgendetwas und kann darauf vertrauen, dass gar niemand damit hinterherkommt, diese Veroeffentlichungen auf Herz und Nieren abzuklopfen. Der Fachbegriff dafuer ist, soweit ich weiss, Gish-Gallop.
Wohl gemerkt: Ich halte mich auch nur fuer jemanden mit gefaehrlichem Halbwissen – ich kann Docker-Container aufsetzen und Compose-Files lesen, aber mein Kontakt zu IT-Sicherheitsforschung beschraenkt sich weitgehend darauf, mal in einem rc3-Beitrag von Zerforschung einen baertigen Schreiner der Hack, Hack, Hack & Hack UG gespielt zu haben. Aber schon die Antworten auf meinen Masto-Rant von heute scheinen weit ueber das hinauszugehen, was irgendwo in klassischen Journo-Outlets beschrieben wurde.
Das ist enorm bedenklich. Ich sehe nicht den einen Faktor, woran das liegt. Vermutlich ist es Multiorganversagen: Vor 17 Jahren praegte „das alte Twitter“ von damals, was „der Netzdiskurs“ war. Das war noch bevor die Guttenberg-Apologet*innen wenige Jahre spaeter – fuer viele ueberraschend – auch im Netz waren. In der Zwischenzeit wurde Digitalpolitik immer mehr zur Nische, gibt es immer weniger fachlich fundierte Begleitung, wurde das ehemalige Twitter zum Hellhole, gibt es auf Mastodon das „Wohnzimmer fuer Nerds“, das aber wenig Anschluss zur Politik hat, und beschraenken sich viel zu viele Digital-NGOs darauf, immer absurdere Ideen der Bundesregierung mit immer weniger aus dem IT-Bereich rekrutierten Personal nur mehr „weniger schlimm“ oder „irgendwie gemeinwohlorientiert“ machen zu wollen, anstatt fundamentale fachliche Widersprueche aufzuzeigen. Und das wird immer mehr zu einem richtig grossen Problem.
Nachtrag
Quasi als P.S., ich hatte es bereits auf Mastodon geposted: Ich war auch etwas erschrocken darueber, dass ich beim Eintauchen in das Repo immer wieder gemurmelt hatte, warum das denn noch niemand sonst analysiert habe. Und ich daraufhin Rueckfragen bekam, warum das nicht z.B. die oben genannte zerforschung-Gruppe zerlegt habe, oder konkret Lilith Wittmann, oder Bianca Kastl. Ich werte das mal vorwiegend als Kompetenz- und Vertrauenserklaerung gegenueber diesen Menschen.
Aber, ganz offen: Diese Menschen haben zwar vielfach in der Vergangenheit Quatsch als solchen benannt. Aber sie sind halt ehrenamtliche Menschen, die all zu schlimmen Unsinn aufgedeckt haben. Es kann und darf nicht sein, das wir als Gesellschaft solche Analysen allein solchen Ehrenamtlichen aufbuerden. Zumal es sowohl im Journalismus als auch im NGO-Bereich bezahlte Menschen gibt, die z.B. „Wirkungsorientierung“ bei staatlichen Digitalprojekten analysieren wollen. It’s your fucking job, folks. Was tut ihr, um solche Analysen zu machen und sie einem allgemeinen Publikum zugaenglich zu machen?



