Prädiktive und präskriptive Analysen für Geodaten

Im BMBF-Forschungsprojekt BigGIS hat Disy mit renommierten Partnern aus Wissenschaft und Praxis neue Methoden und Werkzeuge entwickelt, um hochskalierbar auf Geodaten prädiktive und präskriptive Analysen durchzuführen.

Mit dem fünften Meilenstein-Workshop im März 2018 wurde das dreijährige Forschungsprojekt des Bundesministeriums für Bildung und Forschung (BMBF) BigGIS abgeschlossen, in dem Disy zusammen mit renommierten Wissenschafts- und Praxispartnern Methoden und Technologien zur skalierbaren Analyse von Geodaten anhand dreier praktischer Leitszenarien entwickelt hat.

 

Die BigGIS-Anwendungsszenarien
Die drei BigGIS-Anwendungsszenarien akzentuieren jeweils unterschiedliche Charakteristika und Fragestellungen bei der Analyse von großen Mengen von Geodaten.

Im Szenario Katastrophenschutz wurde die Entscheidungsunterstützung bei komplexen Schadenslagen am Beispiel von Schadgas-Situationen untersucht, wie sie zum Beispiel bei Bränden in Industrieanlagen auftreten können. Hauptfrage war hier, wie man aus verschiedenen Informationsströmen, insbesondere auch drohnengestützten Hyperspektralaufnahmen, schnellstmöglich ein integriertes Lagebild erzeugen kann. Projektergebnisse umfassten beispielsweise die Daten-Pipeline für hochvolumige Kameradatenströme, effiziente Analyseverfahren zur semantischen Interpretation der Kamerabilder oder auch Prognosen zur weiteren Ausbreitung der Schadgaswolke.

Im Szenario Umweltmonitoring ging es um die Beobachtung invasiver Tier- und Pflanzenarten, beispielhaft betrachtet anhand der Kirschessigfliege. Hier wurden aussagekräftige neuartige Visualisierungsmöglichkeiten für die Ausbreitungsdynamik der Schädlinge realisiert.

Im Szenario Smart City und Gesundheit wurden insbesondere urbane Hitzeinseln und weitere Einflussfaktoren auf das Stadtklima analysiert. Forschungsthemen umfassten zum Beispiel die Interpolation von flächendeckenden Karten aus Beobachtungen von wenigen Sensorstandorten, die effiziente Nutzung mobiler Sensorik zur Datenvervollständigung, die Kombination amtlicher Messdaten mit nutzergenerierten Daten (Citizen Science) und die kleinräumige Temperaturprognose auf Basis vielfältiger kombinierter Eingangsdaten.

Das BigGIS-Projekt
Das Projekt BigGIS wurde vom BMBF im Rahmen des Förderschwerpunkts „Big Data“ gefördert.

Projektpartner waren:

  • FZI Forschungszentrum Informatik am Karlsruher Institut für Technologie, als Projektkoordinator und mit verschiedenen Arbeitsgruppen (Prof. Thomas Setzer, Prof. Stefan Nickel, Prof. Rudi Studer, Prof. York Sure) in den Themen Datenanalyse und Datensemantik.
  • Disy Informationssysteme GmbH als Geodatenexperte und Systemintegrator.
  • EFTAS Fernerkundung Technologietransfer GmbH für alle Fragen der Fernerkundung und der Auswertung von Drohnen- und Satellitendaten.
  • EXASOL AG als Anbieter einer Hochleistungs-In-Memory-Datenbank.
  • Landesanstalt für Umwelt, Messungen und Naturschutz Baden-Württemberg (LUBW) als Anwendungspartner und Datenlieferant.
  • Stadt Karlsruhe als assoziierter Anwendungspartner.
  • Universität Konstanz (Prof. Daniel Keim) als führender Lehrstuhl zur Datenvisualisierung.
  • Hochschule Karlsruhe - Technik und Wirtschaft (Prof. Jens Nimis) für Fragen der Gesamtarchitektur und der Infrastrukturvirtualisierung.

Das Projekt wurde am FZI koordiniert von Prof. Dr. Thomas Setzer und Dr. Viliam Simko.

Genutzte Werkzeuge und integrierte Frameworks
Die technischen Forschungs- und Lösungsbeiträge lassen sich in der BigGIS-Lösungsarchitektur einordnen, welche verschiedene genutzte und weiterentwickelte Software-Frameworks auf den jeweiligen Abstraktionsebenen darstellt (vgl. Abbildung 6):

  • Auf der Infrastrukturebene wurden Tools für die vereinfachte skalierbare Bereitstellung und das automatisierte Management dieser Virtualisierungsschicht untersucht, zum Beispiel Docker und Rancher.
  • Auf der Ebene der Datenspeicherung kamen verschiedene verteilte Datenbanken zum Einsatz. Disy führte Benchmarks neuerer Big-Data-Lösungen im Vergleich mit etablierten Geodatenbanken wie ORACLE und PostgreSQL durch. Insbesondere erweiterte und verbesserte der Projektpartner EXASOL hier die Fähigkeiten seiner In-Memory-Datenbank für die Verarbeitung von Geodaten erheblich.
  • Auf der Middleware-Ebene ging es primär um das Message Brokering, also die Entkopplung der direkten synchronen Kommunikation von eingehenden Datenströmen mit Weiterverarbeitungsprozessen. Hier kamen Werkzeuge wie Kafka und ActiveMQ zum Einsatz.
  • Die Ebene der Data Analytics war der Projektschwerpunkt verschiedener Partner. Vielfältige Tools und Frameworks wurden genutzt, wie Spark, Flink und R als sehr generische Werkzeuge oder auch GeoTrellis als Spezialwerkzeug für große Mengen von Raster-Geodaten. Die Universität Konstanz entwickelte verschiedene neue Visualisierungsmöglichkeiten zur interaktiven Datenanalyse. Disy integrierte die Teillösungen prototypisch und koppelte sie mit Cadenza, der eigenen Plattform für Data Analytics, Reporting und GIS.
  • Die Ebene der Modellierung unterstützte die Konfiguration komplexer Big-Data-Verarbeitungsworkflows mithilfe des FZI-Werkzeugs StreamPipes.

BigGIS-Ergebnisse
Wie sich aus der Softwarearchitektur schon erahnen lässt, sprengt die Vielzahl der technologischen Arbeitsthemen und Ergebnisse des dreijährigen Forschungsprojekts den Rahmen dieses Beitrages.

Leitthema der Arbeit war durchgängig die besondere Rolle von Geodaten und von räumlich-zeitlichen Analysen im Big-Data-Kontext und die Frage, inwieweit gängige Big-Data-Ansätze hierfür schon geeignete Antworten anbieten. Konkrete Arbeitspunkte waren dann beispielsweise effiziente Datenpipelines für Vektorgeodaten und für Rastergeodaten, hochperformante Algorithmen für Geodaten bei der In-Memory-Verarbeitung, Konnektoren und Schnittstellen zu gängigen Elementen von Geodateninfrastrukturen, der Umgang mit unsicheren (z. B. nutzergenerierten) oder unvollständigen (z. B. bei zu wenigen Sensorstationen) Daten oder intuitive Visualisierungen für räumlich-zeitliche Phänomene.

Konkrete Fragestellungen zur Analyse und Entscheidungsunterstützung betrafen beispielsweise die Ausbreitungsprognose eines Pflanzenschädlings, die Ausbreitungsprognose einer Giftgaswolke oder auch ein Fußgängerrouting für Hitze- oder Stadtklima-empfindliche Nutzer.

Disy als Geodatenexperte, Lösungsanbieter und Systemintegrator hat im Projekt an den verschiedensten Stellen seine Expertise für räumliche Datenanalyse und Geodaten eingebracht, insbesondere die Verarbeitungspipeline für Vektorgeodaten aufgesetzt und zusammen mit der LUBW und der Universität Konstanz den Demonstrator für das Beispielszenario „Umweltmonitoring/Kirschessigfliege“ realisiert.

In enger Zusammenarbeit mit der Hochschule Karlsruhe wurde das Thema Container-basierte, skalierbare Infrastrukturvirtualisierung aufbereitet, was auch schon zu Lösungsansätzen für die Docker-basierte Auslieferung unseres Produkts Cadenza („Dockadenza“) geführt hat. Mit Unterstützung durch das FZI und die Visualisierungsexperten der Universität Konstanz wurden Ansätze zur besseren, benutzerfreundlichen Visualisierung räumlich-zeitlicher Phänomene entwickelt. Erste Ergebnisse sind in Cadenza bereits umgesetzt (z. B. die neue Heatmap-Darstellung), weitere wurden als Weiterentwicklungsideen für Cadenza bei der Disy-Werkstatt 2018 vorgestellt.

Durch die prototypische Kopplung von Cadenza mit Hochleistungsdatenbanken wie der In-Memory-DB von EXASOL oder SAP HANA und durch die Verbindung mit Big-Data-Frameworks wie Flink und Spark wurden auch Lösungswege für zukünftige Szenarien mit hochvolumigen, heterogenen Datenströmen aufgezeigt, wie sie uns beispielsweise in unseren Geschäftsfeldern Innere Sicherheit und Smart Agriculture zunehmend begegnen.

Wenn Sie mehr wissen wollen …
Detaillierte Informationen zu den BigGIS-Anwendungen, -Methoden und -Lösungsdemonstratoren befinden sich auf der Projekt-Webseite, ebenso wie Publikationen und Vorträge zum Projekt und Code für verschiedene Open-Source-Entwicklungen.

Bildquelle Startfoto "Kirschessigfliege": Arno Fried, Landratsamt Karlsruhe