Innovative Technologien für den Umgang mit Spatial Big Data

Die Karlsruher Disy Informationssysteme GmbH hat gemeinsam mit renommierten Partnern aus Wissenschaft und Praxis in einem vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Projekt Methoden und Werkzeuge entwickelt, um große Mengen an sich ständig ändernden, verteilt vorliegenden und zum Teil inkohärenten Geodaten zu verarbeiten. Das damit in den Bereich „Big Data“ gehörende Projekt wurde jetzt erfolgreich abgeschlossen.

Auch von GIS-Architekturen wird heute erwartet, dass sie rapide anwachsende Datenmengen im Tera- bis Petabyte-Bereich integrieren und zeitnah nutzbar machen können. Das Karlsruher Unternehmen Disy Informationssysteme GmbH gilt als Experte in Fragen des Managements von großen Datenmengen und stellt sich diesen Herausforderungen, zum Beispiel als Teil des BigGIS-Projektkonsortiums, das im Frühjahr 2015 vom Bundesministerium für Bildung und Forschung (BMBF) den Zuschlag für das Forschungsprojekt „BigGIS – Prädiktive und präskriptive Geoinformationssysteme basierend auf hochdimensionalen geotemporalen Datenstrukturen“ erhalten hat. Diesem Konsortium gehören neben Disy weitere Partner aus renommierten Forschungseinrichtungen, großen und innovativen Fachbehörden sowie in ihren Kompetenzfeldern exzellenten Wirtschaftsunternehmen an. Ziel des Vorhabens ist die Erforschung, prototypische Umsetzung und Evaluierung von Techniken, Modellen und Methoden, die in vielfältigen Anwendungsfällen Entscheidungen auf Basis von großen Mengen an zeitlich-strukturierten Geodaten aus vielfältigen Quellen (insbesondere Fernerkundung, mobile Sensorik, Crowdsourcing und dem Social Web, aber auch aus Legacy-Systemen zur Geodatenverarbeitung) unterstützen.

Ergebnisse für drei Anwendungsszenarien
Mit einem fünften Meilenstein-Workshop wurde das dreijährige Forschungsprojekt im März 2018 abgeschlossen. Hier wurden Ergebnisse für drei BigGIS-Anwendungsszenarien präsentiert. Im Szenario Katastrophenschutz wurde die Entscheidungsunterstützung bei komplexen Schadenslagen am Beispiel von Schadgas-Situationen untersucht, wie sie zum Beispiel bei Bränden in Industrieanlagen auftreten können. Hauptfrage war hier, wie man aus verschiedenen Informationsströmen, insbesondere auch drohnengestützten Hyperspektralaufnahmen, schnellstmöglich ein integriertes Lagebild erzeugen kann. Projektergebnisse umfassten beispielsweise die Daten-Pipeline für hochvolumige Kameradatenströme, effiziente Analyseverfahren zur semantischen Interpretation der Kamerabilder oder auch Prognosen zur weiteren Ausbreitung der Schadgaswolke. Im Szenario Umweltmonitoring ging es um die Beobachtung invasiver Tier- und Pflanzenarten, beispielhaft betrachtet anhand der Kirschessigfliege. Hier wurden aussagekräftige neuartige Visualisierungsmöglichkeiten für die Ausbreitungsdynamik der Schädlinge realisiert. Und im Szenario Smart City und Gesundheit wurden insbesondere urbane Hitzeinseln und weitere Einflussfaktoren auf das Stadtklima analysiert. Forschungsthemen umfassten zum Beispiel die Interpolation von flächendeckenden Karten aus Beobachtungen von wenigen Sensorstandorten, die effiziente Nutzung mobiler Sensorik zur Datenvervollständigung, die Kombination amtlicher Messdaten mit nutzergenerierten Daten (Citizen Science) und die kleinräumige Temperaturprognose auf Basis vielfältig kombinierter Eingangsdaten.

Genutzte Werkzeuge und integrierte Frameworks
Die technischen Forschungs- und Lösungsbeiträge lassen sich in die BigGIS-Lösungsarchitektur einordnen, die die folgenden genutzten und weiterentwickelten Software-Frameworks enthält: Auf der Infrastrukturebene wurden Tools für die vereinfachte skalierbare Bereitstellung und das automatisierte Management dieser Virtualisierungsschicht untersucht, zum Beispiel Docker und Rancher. Auf der Ebene der Datenspeicherung kamen verschiedene verteilte Datenbanken zum Einsatz. Disy führte Benchmarks neuerer Big-Data-Lösungen im Vergleich mit etablierten Geodatenbanken wie ORACLE und PostgreSQL durch. Auf der Middleware-Ebene ging es primär um das Message Brokering, also die Entkopplung der direkten synchronen Kommunikation von eingehenden Datenströmen mit Weiterverarbeitungsprozessen. Hier kamen Werkzeuge wie Kafka und ActiveMQ zum Einsatz. Die Ebene der Data Analytics war der Projektschwerpunkt verschiedener Partner. Vielfältige Tools und Frameworks wurden genutzt, wie Spark, Flink und R als sehr generische Werkzeuge oder auch GeoTrellis als Spezialwerkzeug für große Mengen von Raster-Geodaten. Die Ebene der Modellierung unterstützte die Konfiguration komplexer Big-Data-Verarbeitungsworkflows mithilfe des Werkzeugs StreamPipes.

Komplexe Architektur
Leitthema der Projektarbeit war durchgängig die besondere Rolle von Geodaten und von räumlich-zeitlichen Analysen im Big-Data-Kontext und die Frage, inwieweit gängige Big-Data-Ansätze hierfür schon geeignete Antworten anbieten. Konkrete Arbeitspunkte waren dann beispielsweise effiziente Datenpipelines für Vektorgeodaten und für Rastergeodaten, hochperformante Algorithmen für Geodaten bei der In-Memory-Verarbeitung, Konnektoren und Schnittstellen zu gängigen Elementen von Geodateninfrastrukturen, der Umgang mit unsicheren (z. B. nutzergenerierten) oder unvollständigen (z. B. bei zu wenigen Sensorstationen) Daten oder intuitive Visualisierungen für räumlich-zeitliche Phänomene. Konkrete Fragestellungen zur Analyse und Entscheidungsunterstützung betrafen beispielsweise die Ausbreitungsprognose eines Pflanzenschädlings, die Ausbreitungsprognose einer Giftgaswolke oder auch ein Fußgängerrouting für Hitze- oder Stadtklima-empfindliche Nutzer.

Disy als Geodatenexperte, Lösungsanbieter und Systemintegrator hat im Projekt an den verschiedensten Stellen seine Expertise für räumliche Datenanalyse und Geodaten eingebracht, insbesondere die Verarbeitungspipeline für Vektorgeodaten aufgesetzt und zusammen mit anderen den Demonstrator für das Beispielszenario „Umweltmonitoring/Kirschessigfliege“ realisiert. Durch die prototypische Kopplung des Disy-Produkts Cadenza mit Hochleistungsdatenbanken wie der In-Memory-DB von EXASOL oder SAP HANA und durch die Verbindung mit Big-Data-Frameworks wie Flink und Spark wurden außerdem Lösungswege für zukünftige Szenarien mit hochvolumigen, heterogenen Datenströmen aufgezeigt, wie sie beispielsweise in den Bereichen Innere Sicherheit und Smart Agriculture zunehmend auftreten.