Innovation in der Geodatenverarbeitung: Disy's hochautomatisierter Lösungsansatz
In Zeiten wachsender Datenmengen und fehlendem Fachpersonal stößt die Geodatenverarbeitung in klassischen GIS-System an ihre Grenzen. Dafür bietet Disy jetzt einen innovativen Lösungsansatz.
Durch Messstationen, Drohnen, Satelliten, Sensornetzwerke und nicht zuletzt auch die Prozesse der Verwaltungsdigitalisierung: Überall fallen Daten an und die Datenmengen erreichen hinsichtlich Größe und Heterogenität gewaltige Dimensionen – eben das, was als Big Data bezeichnet wird. Das gilt auch für den Geo-Bereich. Mit der Datenverfügbarkeit steigen die Anforderungen an die Analyse und die Visualisierung geographischer Zusammenhänge. Diese Entwicklung wird durch den Trend zur Auflösung von Datensilos, der die ganzheitliche Sicht auf Organisationsdaten ermöglicht, zusätzlich beschleunigt.
Klassische GIS-Ansätze skalieren nicht
Aber irgendwann ist in Bezug auf die Datenmenge ein Kipppunkt erreicht und klassische GIS-Systeme stoßen bei ihren Analysen an systemische Grenzen. Sie skalieren nicht mehr, weil sie immer wieder manuelle Prozessschritte erfordern, die von langen Berechnungspausen unterbrochen werden und von der Verfügbarkeit von qualifiziertem Fachpersonal abhängen. Zudem sind klassische GIS-Systeme auch heute in der Regel noch reine Desktop-Anwendungen – mit allen damit verbundenen Nachteilen in puncto Speicherlimitierung sowie der Notwendigkeit, die Daten immer wieder neu ins System zu laden und zurückzuspeichern.
Zunehmende Bedeutung von Data Governance
Daneben gibt es eine weitere Hausforderung, mit denen sich klassische GIS-Systeme schwertun: den internen Standards bzw. Datenrichtlinien für die Erfassung, Speicherung, Verarbeitung und Löschung von Daten – oder kurz der Data Governance. Keine Organisation kann es sich mehr leisten, diesen Aspekt zu ignorieren. Manuelle Datenverarbeitungsprozesse sind jedoch immer fehleranfällig, schwer nachzuvollziehen und auch die konstante Pflege von Metadaten ist ein aufwändiger und personalintensiver Prozess. Hinzu kommt bei wachsenden Datenmengen auch die steigende Komplexität in der Modellbildung. Es entstehen so viele Abhängigkeiten, dass sich diese ab einer bestimmten Menge „klassisch“ schlicht nicht mehr überblicken lassen.
Hochautomatisierte Geodatenverarbeitung von Disy entwickelt
„Vor rund zehn Jahren standen wir bei Disy zum ersten Mal vor der Herausforderung, die Umgebungslärmkartierung für das Eisenbahn-Bundesamt zu realisieren. Dazu waren riesige Datenmengen aus verschiedensten Quellen unter Einhaltung strenger Data Governance-Vorschriften innerhalb eines sehr engen Zeitfensters zu einem homogen Datenmodell zusammenzuführen. In dieser Situation haben wir den modularen prozessgetriebenen Lösungsansatz zur hochautomatisierten Geodatenverarbeitung erfunden, den wir auch als Disy Spatial Workbench (DSW) bezeichnen“, blickt Torsten Brauer, Senior Berater und Chef-Architekt Datenbanksysteme bei Disy, auf die Entstehung des Lösungsansatzes zurück.
Bei diesem Konzept wird die gesamte Datenverarbeitungskette in einzelne, modulare Prozessschritte zerlegt und mit klaren Eingangs- und Ausgangsparametern beschrieben. So können die einzelnen Schritte mit variabel zusammenstellbaren Datasets automatisiert werden. Derartige Prozessschritte lassen sich über eine intelligente Prozesssteuerung nahezu beliebig miteinander kombinieren.
Nachvollziehbarkeit der Geodatenverarbeitung
Essenziell sind dabei vollständige Metadaten, die jeden verarbeiteten Datensatz über alle Prozessschritte hinweg nachverfolgbar machen. Gleichzeitig ermöglichen diese Metadaten die individuelle Verarbeitung jedes Datensatzes. So sorgt beispielsweise die Ablaufsteuerung dafür, dass nach einer automatisierten Korrektur von geometrischen Datenfehlern nur hinreichend plausibilisierte Datensätze weiterverarbeitet werden. Eine Aufgabe, mit der menschliche GIS-Analysierende lange beschäftigt wären und deren Ergebnisse je nach Tagesform unterschiedlich ausfallen können. Ein Algorithmus hingegen entscheidet bei gleicher Ausgangsbasis immer gleich, was zu einheitlichen Ergebnissen führt.
Die einzelnen Prozessschritte werden so weit wie möglich über Routinen in der Datenbank umgesetzt. Das beschleunigt nicht nur die Datenverarbeitung, da Übertragungsvorgänge wegfallen, sondern ermöglicht auch eine nahezu lineare Skalierung inkl. automatisierter Erzeugung und strukturierter Ablage der notwendigen Metadaten. Abgebrochene Prozesse können nahtlos wieder aufgenommen werden, ohne dass ein Datensatz unnötigerweise zu viel berechnet wird.
Kontinuierliche Weiterentwicklung der Disy Spatial Workbench
Mittlerweise hat sich die DSW seit über 10 Jahren in unterschiedlichen Kundenprojekten bewährt. Lag der Schwerpunkt bei der initialen Entwicklung noch auf der Datenbanktechnologie von Oracle und einer selbstentwickelten Ablaufsteuerung, so kommen heute je nach Projekt wahlweise PostGIS, Talend Open Studio oder Apache Airflow zum Einsatz. Das generelle Prinzip der Datenverarbeitung ist geblieben: Die verschiedenen Prozessschritte sind in der Datenbank gekapselt umgesetzt, die automatische Ablaufsteuerung sorgt für die Orchestrierung und die Metadaten sowie bei Bedarf für den weiteren „Klebstoff“ zwischen den einzelnen Modulen. Die Komponenten der DSW werden kontinuierlich weiterentwickelt. So ist über die Jahre ein Fundus von hunderten von Bausteinen entstanden, mit dem komplexe, umfangreiche und zeitkritische Geodatenprojekte umgesetzt werden können – mit vollständiger Dokumentation und in hervorragender Qualität.
Bundesweite Großprojekte beweisen Effektivität der Geodatenverarbeitung
Die Effizienz dieses Ansatzes konnten wir beispielsweise in diesen Projekten unter Beweis stellen: Für das Eisenbahn-Bundesamt hat Disy mit Runde 4 bereits zum dritten Mal die EU-Umgebungslärmkartierung an Schienenwegen des Bundes durchgeführt. Dabei wurden über 33.000 Kilometer Schienenwege, auf denen jährlich über 2 Milliarden Fahrgäste befördert und mehr als 300 Millionen Tonnen Güter transportiert werden, mit rund 25.000 Brücken, 700 Tunneln, 14.000 Bahnübergängen, tausenden Kilometer Schallschutzwänden, gut 60 Millionen Gebäuden, zehntausenden Quadratkilometer Geländemodell und andere Daten verarbeitet. Nach diesem Ansatz wurden alle Daten plausibilisiert und zum homogenen Modell für die Schallberechnung zusammengeführt. Durch den hochautomatisierten Ansatz konnte die termingerechte Berechnung und Bereitstellung der Lärmkarten sichergestellt werden.
In einem Projekt für DB Netz AG wurde ebenfalls ein bundesweites Berechnungsmodell entlang aller Schienenwege aufgebaut bzw. aktualisiert, welches als Grundlage für die Aktualisierung des Lärmsanierungsprogramms des Bundes dient. Auf Basis dieses Projekts und den Ergebnissen der Schallmodellierung konnten wir verschiedene Varianten der Abschnittsbildung testen, um bestmögliche Ergebnisse zu erzielen. Ohne den automatisierten Ansatz hätten wir uns direkt zu Projektbeginn für ein Vorgehensmodell entscheiden müssen, ohne dieses mit anderen, eventuell besseren Optionen vergleichen zu können.
Zeitgemäße Geodatenverarbeitung und GIS-Projekte
Die IT-Landschaft und die Art, wie Daten verarbeitet werden, haben sich in den zurückliegenden Jahren enorm weiterentwickelt. Diese Entwicklung gilt jedoch nicht für GIS-Anwendungen und Geodaten. In diesen Bereichen dominieren immer noch Lösungsansätze, die bereits vor 20 Jahren genutzt wurden. Das führt in GIS-Projekten immer wieder zu hohen Kosten, verschleppten Datenfehlern und Inkonsistenzen. Um das zu verhindern, bietet sich der modulare Ansatz der DSW an. So werden manuelle Schritte mit der damit verbundenen Fehleranfälligkeit vermieden bzw. minimiert. Die neue Aufgabe des GIS-Analysten wird dann darin bestehen, die Regeln zur Verbindung der Bauteile in der DSW zu definieren und neue Bauteile zu erschaffen. Das kann parallelisiert erfolgen, ohne Wartezeiten bis zum Abschluss einer Berechnung. Ergibt sich im Projekt die Notwendigkeit, nachträglich neue Daten zu integrieren oder einen Verarbeitungsschritt anzupassen, ist das jederzeit möglich. Die Kosten dafür fallen lediglich in Rechenzeit an, die beliebig skaliert werden kann.
Generischer Lösungsansatz der Geodatenverarbeitung für viele Fragestellungen
Wir sind überzeugt, mit dem von Disy entwickelten Lösungsansatz eine generisch nutzbare Antwort auf die Herausforderungen moderner Geodatenprojekte gefunden zu haben, die enormes Potential bietet. Schließlich sind Geodaten auch „nur“ Geometrien mit Sachattributen. Einzelne Prozessschritte sind meist vollständig unabhängig von den Einflüssen und Anforderungen eines bestimmen Fachbereichs (domänenagnostisch), die Fachlichkeit der Fragestellungen findet sich in der Ablaufsteuerung wieder.
Die hochautomatisierte Geodatenverarbeitung kann somit auf beliebige Fragestellungen in Forschung, Wirtschaft und öffentlicher Verwaltung übertragen und projektspezifisch angepasst werden. Immer mehr datengetriebene Anwendungsfälle erfordern die bedarfsgerechte Aufbereitung heterogener Geodaten in großer Menge in verlässlicher Qualität. Inhaltlich kann es dabei beispielsweise um die Entwicklung von Frühwarnsystemen für Hochwassergebiete, den vorsorgenden Katastrophenschutz, die Überwachung von Feld, Flur und Meeren, die Planung von Tiefbauarbeiten oder kritischer Infrastruktur bis hin zu Konzepten für autonome Mobilität gehen. Überall hier kann die datenbankgestützte Ablaufsteuerung der Datenverarbeitung ihren Nutzen entfalten.