3. Potenzialanalyse und Grenzen von KI

Zur Analyse des Potenzials und der Grenzen der Nutzung von KI wurde deren Einsatz an realen Baueingaben getestet. Der Abschnitt beschreibt das Vorgehen, das Testdesign und die aus der Analyse gewonnenen Erkenntnisse.

Grafik von vernetzten Punkten

Prüfung von KI-Potenzialen

Im Rahmen der Innovation-Sandbox für KI führte das Amt für Wirtschaft des Kantons Zürich gemeinsam mit den beiden Projektpartnern NOKEMA (Projekteinreichung) und Byte Studio (technischer Entwicklungspartner) eine Analyse zum Einsatz von KI im Baubewilligungsverfahren durch. Aufgrund der hohen fachlichen Komplexität des Anwendungsfalls arbeitete das Projektteam zudem mit dem Fachpartner Gossweiler Ingenieure AG zusammen. Diese Partnerschaft war entscheidend, da der kontinuierliche Austausch zwischen der technologischen KI-Perspektive und der Planungs- und Bewilligungspraxis mit ihren fachlichen Gegebenheiten eine zentrale Voraussetzung für realistische Ergebnisse bildete. Ergänzend stellte die Stadt Kloten mit der Einwilligung der Gesuchstellenden mehrere reale Baueingaben und Meldeverfahren zur Verfügung. Diese dienten als Grundlage, um die Potenziale und Grenzen heutiger KI-Modelle systematisch und praxisnah zu prüfen. Da es sich um eine einzelne Fallstudie handelt, sind die Ergebnisse allerdings nur begrenzt generalisierbar.

Rechtliche Grundlagen für die KI-Analyse

Die Auswahl der ersten Anwendungsfälle orientiert sich an klar definierten gesetzlichen Grundlagen des Kantons Zürich. Relevante Rechtsgrundlagen sind insbesondere:

  • Planungs- und Baugesetz (PBG), Kanton Zürich
  • Allgemeine Bauverordnung (ABV), Kanton Zürich
  • Bauverfahrensverordnung (BVV), Kanton Zürich

Diese Erlasse bilden den rechtlichen Rahmen für formelle und materielle Prüfungen im Baubewilligungsverfahren und dienen als Referenz für die im Projekt untersuchten Fragestellungen.

Verschiedene Stufen der Prüfung

Ausgehend von den genannten Rechtsgrundlagen konzentrierte sich das Projekt auf klar abgegrenzte, praxisrelevante Fragestellungen entlang des Baubewilligungsverfahrens. Diese decken unterschiedliche Prüfstufen ab:

  • Verfahrensprüfung (§ 14 BVV): In welchem Verfahren wird das Bauvorhaben behandelt?
  • Vollständigkeitsprüfung (§ 3 BVV): Ist die Baueingabe vollständig?
  • Formelle Prüfung (§ 4 BVV): Entspricht die Plandarstellung den gesetzlichen Vorgaben?
  • Materielle Prüfung (diverse § BVV): Wie sind die Planinhalte und die weiteren Gesuchsunterlagen im Lichte der massgeblichen baurechtlichen Vorgaben zu werten?

Diese Fragestellungen bilden typische Prüfschritte im Vollzug ab und eignen sich, um das Potenzial heutiger KI-Modelle systematisch zu untersuchen.

Vorgehen bei der KI-Analyse

Die Prüfung erfolgte in einem klar strukturierten, mehrstufigen Verfahren. Auf Basis der realen Eingaben für den Bau eines Mehrfamilienhauses definierte das Projektteam konkrete Testfragen und legte für jede Frage eine korrekte Referenzantwort fest. Diese diente als Grundlage für die spätere Bewertung der KI-Ergebnisse. Anschliessend bereitete das Team die Baupläne technisch auf. Je nach KI-Modell wurden die Pläne entweder direkt als PDF verarbeitet oder vorgängig in hochauflösende Bildformate umgewandelt. In einem nächsten Schritt befragte das Team mehrere KI-Modelle unterschiedlicher Anbieter – darunter OpenAI, Google und Anthropic – mit identischen Fragen und identischem Material. Dadurch liessen sich die Antworten der verschiedenen Modelle direkt vergleichen. Die Bewertung der Antworten übernahm ein separates KI-Modell (LLM-as-a-Judge). Dieses verglich die generierten Antworten mit den vom Projektteam definierten Referenzlösungen und bewertete sie automatisiert. Die Tests wiederholten jede Abfrage dreimal, um herauszufinden, ob ein Modell konsistent dieselbe Antwort gibt oder ob die Ergebnisse zufällig schwanken. Abschliessend wertete das Projektteam die Ergebnisse systematisch aus und verglich die getesteten Modelle hinsichtlich Leistungsfähigkeit, Antwortzeit und Kosten.

Stammbaumartiger Aufbau der Tests
Konzeptioneller Aufbau der Tests mit einem Benchmarking verschiedener Modellanbieter

Testdesign mit fünf Dimensionen

Eine voll automatisierte Beantwortung der genannten Fragen im Sinne einer einmaligen Modellabfrage mit korrektem Output (Zero-Shot-Ansatz) ist mit heutigen generativen KI-Modellen nicht realistisch. Die rechtliche und fachliche Komplexität der Fragestellungen, die Vielzahl relevanter Normen sowie uneinheitliche und teilweise unstrukturierte Eingabedaten führen zu einem hohen Mass an Kontextrauschen (Noise). Dies erschwert eine konsistente und verlässliche Beurteilung. Darum hat das Projektteam den Prüfprozess in einzelne Teilaufgaben gegliedert und diese isoliert getestet. Ziel war es, die Fähigkeiten und Grenzen der eingesetzten Modelle entlang fünf klar definierter Dimensionen systematisch zu analysieren.

  1. Informationsextraktion: Kann das KI-Modell gezielt Informationen aus einem Plan herauslesen, etwa Massstab, Nummer, Datum, Architekt, Raumflächen oder Gebäudehöhe?
  2. Zählen: Kann das KI-Modell Elemente auf einem Plan erkennen und korrekt zählen, beispielsweise Fenster, Türen, Räume, Parkplätze oder Wohnungen?
  3. Messen und Rechnen: Kann das KI-Modell mit Massen arbeiten und einfache Berechnungen durchführen, etwa Flächenangaben verifizieren oder Verhältnisse wie das der Fensterfläche zur Bodenfläche prüfen?
  4. Räumliches Verständnis: Kann das KI-Modell die Anordnung und Orientierung von Bauteilen erfassen, zum Beispieldie Lage des Eingangs, die Ausrichtung eines Balkons oder die Beziehung zwischen angrenzenden Räumen?
  5. Kontextverständnis: Kann das KI-Modell den Plan korrekt einordnen und beispielsweise unterscheiden, ob es sich um einen Grundriss oder einen Schnitt handelt, welches Geschoss dargestellt ist oder ob ein Neubau oder ein Umbau vorliegt?
Architektonisch gezeichnete Plandarstellung zur Verdeutlichung der Bewertungsdimensionen
Beispiel einer Plandarstellung, mit der die Beantwortung der Fragen entlang der fünf Bewertungsdimensionen getestet wurden

Ergebnisse der KI-Analyse

Die Evaluation der 3336 durchgeführten Tests zeigt deutlich, dass KI das Baubewilligungsverfahren gezielt unterstützen kann, eine voll automatisierte Gesamtprüfung jedoch nicht realistisch ist. Der Mehrwertliegt in klar abgegrenzten, standardisierbaren Teilaufgaben.

Was heute bereits gut funktioniert

  • Räumliches Verständnis: KI-Modelle erkennen räumliche und kontextuelle Eigenschaften zuverlässig, zum Beispiel die Nordausrichtung, die Balkon- oder Raumorientierung, Lagebezüge und Nachbarschaften.
  • Kontextverständnis: Die KI-Modelle lieferten bei den meisten Beispielen (Plantyperkennung oder Art der Umgebung mit Unterscheidung zwischen Grünfläche, Bebauung und Strasse) zuverlässige Ergebnisse.

Wo die Ergebnisse aktuell unklar sind

  • Informationsextraktion: KI-Modelle können strukturierte Informationen aus Plänen extrahieren, sofern die Auflösung ausreichend ist. Dazu gehören Flächenangaben, Dachformen, Massstäbe und einfache Metadaten. Doch das zuverlässige Ausmessen von Distanzen (z.B. Strassen-oder Grenzabstände) funktioniert derzeit nicht konsistent, da Referenzpunkte, Massstäbe und Darstellungsweisen von den KI-Modellen unterschiedlich interpretiert werden.

Was derzeit noch schwierig oder nicht zuverlässig ist

  • Messen und Rechnen: Komplexe Mess- und Rechenaufgaben mit zahlreichen eingezeichneten Massen liefern derzeit keine stabilen Ergebnisse; auch Plausibilitätsprüfungen (z.B. ob die Summe von Teilmassen der Gesamtmasse entspricht) funktionieren nicht zuverlässig. Einfache Mess- und Rechenaufgaben in klar begrenzten Szenarien – etwa das Auslesen eines explizit angegebenen Abstands – sind hingegen zuverlässig lösbar.
  • Zählen: Anspruchsvolle Zählaufgaben ohne zusätzliche Hinweise (z.B. Fenster in komplexen Fassaden) sind fehleranfällig. Zählaufgaben mit klaren Vorgaben oder Markierungen funktionieren hingegen gut, etwa die Ermittlung der Anzahl von Kellerabteilen oder Brandschutztüren bei definierter Farbkennzeichnung.
Diagramm zur Darstellung von KI-Modell-Performance
Performance der KI-Modelle entlang der fünf Dimensionen. Das beste und das schwächste Modell wurden für jede Metrik (z.B. Genauigkeit, Geschwindigkeit) getrennt bewertet. Das bedeutet, dass das jeweils beste Modell je nach Metrik von einem unterschiedlichen Anbieter sein kann (siehe Diagramm «Alle Modelle»).

Zentrale Erkenntnisse für den Einsatz von KI

  • Strukturierte Daten nutzen: Informationen, die in digitalen Planungsmodellen (z.B. BIM) bereits strukturiert vorliegen, sollten möglichst direkt dort regelbasiert geprüft werden. Eine nachträgliche Auswertung aus 2D-PDFs ist vor allem dann sinnvoll, wenn solche Daten nicht verfügbar sind, und ersetzt keine weitergehende Digitalisierung der Planungsprozesse.
  • Input und Auflösung: Die Analysequalität hängt stark vom Eingabeformat (PDF oder Bild), von der Auflösung und von der Plandichte ab; grosse oder komplexe Pläne führen durch technische Auflösungsgrenzen zu Informationsverlust.
  • Gesamtprüfung und Automatisierung: Die vollständige Prüfung eines Baugesuchs in einem einzigen Schritt ist nicht zuverlässig möglich; KI eignet sich nicht für eine durchgängige End-to-End-Automatisierung, sondern nur für modulare, schrittweise durchgeführte Prüfungen.
  • Aufgabenteilung: Viele Prüfungen lassen sich durch die Zerlegung in klar definierte Teilaufgaben zuverlässig umsetzen (z.B. Legende erkennen→ relevante Elemente identifizieren →zählen).
  • Modellunterschiede: Genauigkeit, Konsistenz,  Geschwindigkeit und Kosten variieren zwischen den unterschiedlichen KI-Modellen erheblich und verändern sich kontinuierlich mit der technologischenWeiterentwicklung. Aussagen zur Leistungsfähigkeit sind daher stets zeitabhängig. Ein produktiver Einsatz erfordert eine fortlaufende Evaluation und die Möglichkeit, Modelleflexibel auszutauschen.
  • Datenverwaltung: Überlegungen zum Modellanbieter und zur staatlichen Kontrolle über Verwaltungsdaten sind wichtig. Bei der Verwendung von KI-Modellen werden Personendaten, Grundstücksdaten, energietechnische Daten und Geodaten aus online zugänglichen Baugesuchen je nach Modell im Ausland und durch private Anbieter weiterverarbeitet.
  • Systemarchitektur: Unabhängig von der Modellwahl ist eine modulare, mehrstufige Systemarchitektur erforderlich, um Kontextrauschen, Auflösungsgrenzen und unterschiedliche Planformate zu bewältigen sowie Skalierbarkeit und Wartbarkeit sicherzustellen.
  • Kostenstruktur: Die Kosten pro KI-Abfrageliegen im Bereich von rund 0,1 bis 2 Rappen. Auch eine umfangreiche Vorprüfung mit vielen Teilschritten und einer Modellevaluation lässt sich aktuell für unter 2 Franken pro Baugesuch durchführen.
  • Komplexitätsgrenzen: Die meisten fachlichen und rechtlichen Beurteilungen bleibenauf menschliche Expertise angewiesen. Bei bestimmten Prüfschritten mit sehr geringem Zeitaufwand ist der Einsatz generativer KI aus Kosten-Nutzen-Sicht teilweise fraglich, da der personelle Implementierungs- und Kontrollaufwand zusätzlich zu den Kosten pro KI-Abfrage hoch sein kann.

«Bei der KI-Verarbeitung von Bauplänen ist die Wahl zwischen LLM- & regelbasierten Ansätzen sowie deren laufende Evaluation entscheidend.»

Yves Rutishauser, Gründer und KI-Spezialist, Byte Studio GmbH
Diagramm zum Vergleich von Modellen nach Genauigkeit, Kosten, Geschwindigkeit und Konsistenz
im Modellvergleich entlang der Dimensionen Genauigkeit, Kosten pro Abfrage, Geschwindigkeit und Konsistenz zeigten sich deutliche Unterschiede: Je nach Dimension erzielten unterschiedliche Modelle die jeweils besten bzw. schlechtesten Resultate.

Die Ergebnisse zeigen, dass KI das Baubewilligungsverfahren gezielt entlasten kann, insbesondere bei formalen und standardisierbaren Vorprüfungen. Der grösste Nutzen liegt in KI-gestützten Vorabchecks, nicht in einer vollständigen Automatisierung des Gesamtverfahrens. Voraussetzung für einen produktiven Einsatz sind klar abgegrenzte Aufgaben, modulare Systemarchitekturen sowie eine laufende Qualitätssicherung und Evaluation der eingesetzten Modelle.

Limitationen der KI-Analyse

Die vorliegenden Experimente basieren auf einer begrenzten Anzahl von Baueingaben und erlauben daher nur eingeschränkt verallgemeinerbare Aussagen. Für eine belastbare Beurteilung wäre eine Ausweitung der Evaluation auf einen grösseren Datensatz mit unterschiedlichen Projekttypen (z.B. Einfamilienhäuser, Mehrfamilienhäuser) sowie variierender Planqualität erforderlich. Aus diesen Gründen werden die Modellvergleiche in diesem Bericht anonymisiert dargestellt. Zudem beziehen sich die aufgeführten Fähigkeiten der Systeme primär auf objektiv prüfbare Merkmale; wertende Beurteilungen mit Ermessensspielraum bleiben eine Aufgabe der zuständigen Fachpersonen und sind nicht delegierbar.

Aufbauend auf den Erkenntnissen und Limitationen hat das Projektteam im nächsten Schritt einen Prototyp entwickelt, um die identifizierten Einsatzpotenziale unter praxisnahen Bedingungen zu erproben.

Kontakt

Amt für Wirtschaft – Standortförderung

Adresse

Walchestrasse 19
8090 Zürich
Route (Google)
Adresse wurde kopiert Adresse konnte nicht kopiert werden

Telefon

+41 43 259 49 92


Montag bis Freitag
8.00 bis 12.00 Uhr und
13.30 bis 17.00 Uhr

E-Mail

standort@vd.zh.ch