Smart, big und spatial

Im Kern der Disy-Produkte standen stets moderne Technologien für Datenmanagement und -analyse. Heutzutage sind es Themen wie Smart Geodata oder Spatial Big Data, die wir nicht nur beherrschen, sondern aktiv mitgestalten möchten.

Die Informatik ist ein schnelllebiges Geschäft. Reichte es zur Gründungszeit von Disy noch für einige Jahre aus, Datenbank- und GIS-Technologien zusammenzubringen und damit Sachdaten und Geodaten mit einheitlichen Werkzeugen effizient gemeinsam suchen, auswerten und darstellen zu können, sehen wir uns heute fast jährlich neuen IT-Ideen und Hype-Themen gegenüber. Man kann keinen dieser Trends ignorieren, ohne Gefahr zu laufen, von der Mainstream-Entwicklung abgekoppelt zu werden. Und einige dieser Trends bieten natürlich auch tolle Chancen, bessere und neue Produkte, Dienstleistungen und Anwendungsfunktionalitäten zu schaffen.

Deshalb sind geförderte FuE-Verbundprojekte eine willkommene Gelegenheit, solche neuen Technologien zu testen, anwendungs- und domänenspezifisch weiterzuentwickeln und innovative Anwendungsideen zu erproben. Dabei zeigt unsere langjährige Erfahrung, dass neue IT-Trends sehr häufig die speziellen Anforderungen und Probleme der Geodaten ignorieren, so dass Disy hier auch interessante Ergänzungen und Erweiterungen anstoßen kann.

Was sind Big Data und Smart Data?

„Big Data“ lautet einer dieser Begriffe der vergangenen Jahre, die man nicht außer Acht lassen kann. Wir schlagen dafür folgende Arbeitsdefinition vor:

Man redet von einem Big-Data-Anwendungsproblem, wenn in mindestens einer der vier Dimensionen …

(1) Volume (Datenmenge, z. B. im Bereich von Terabyte aufwärts)
(2) Velocity (Geschwindigkeit der Datenentstehung, z. B. Tausende von Sensor-Messwerten pro Sekunde)
(3) Variety (Heterogenität von Daten, entstehend z. B. aus der Kombination unstrukturierter und (semi-)strukturierter Daten)
(4) Veracity (Zuverlässigkeit der Daten, z. B. bei Nutzung von Social-Media-Inhalten)

… derartige Ausprägungen vorliegen, dass sie eine effiziente und effektive Verarbeitung und Nutzung der Daten mit konventionellen Methoden des Datenmanagements und der Datenanalyse auf konventioneller Hardware unmöglich machen. Dann kommen neue Methoden der Datenverarbeitung zum Einsatz, wie insbesondere In-Memory-Datenbanken, NoSQL- und Graph-Datenbanken, Parallelisierung in Clustern durch den MapReduce-Ansatz und moderne Verfahren der Datenstromanalyse.


Auch wenn hier einige Begriffe noch interpretationsfähig sind, lassen sich mit dieser Arbeitsdefinition Big-Data-Fragestellungen gut identifizieren (vgl. BITKOM 2012; BITKOM 2014).

Die Zielsetzungen, die man in Big-Data-Projekten verfolgt, entsprechen überwiegend denen, die man früher bereits beispielsweise mit Data Mining, Text Mining und Business Intelligence verfolgt hat, jedoch unter Verwendung der oben erwähnten neuen Technologien zum Umgang mit den genannten „4 V“ – und zusätzlich häufig unter Hinzukommen eines starken (Nah-)Echtzeitaspekts. Die grundlegenden Analysefragestellungen dabei sind folgende:

  • Deskriptive Analysen stellen interessante Zusammenhänge und Abläufe dar und modellieren sie mit geeigneten Methoden.
  • Diagnostische Analysen leiten die dabei unterliegenden Kausalzusammenhänge ab.
  • Prädiktive Verfahren erzeugen Prognosen und Vorhersagen aus Modellen und Kausalzusammenhängen.
  • Präskriptive Verfahren erzeugen aus Beobachtungen, Modellen und Vorhersagen Algorithmen für die Unterstützung oder sogar Automatisierung von Entscheidungen.
     

Betont man in Big-Data-Fragestellungen weniger die Massenaspekte Volume und Velocity und stattdessen eher den Umgang mit Variety und benutzerfreundliche Verfahren zur intelligenten Datenverwendung, bewegt man sich im Bereich der Smart Data. Einige Autoren gehen noch weiter und verstehen unter Smart Data eine aus einer Big-Data-Quelle extrahierte und aufbereitete, deutlich kleinere Teilmenge von Daten, zu deren zielführender Nutzung man auch Aspekte der Datensemantik, Datenqualität, Datensicherheit und des Datenschutzes beachten muss (vgl. Wierse & Riedel 2017).

 

Was sind Spatial Big Data?

Wir erweitern nun den Begriff Big Data zum Begriff Spatial Big Data oder Big Geodata, wenn in einer Big-Data-Anwendung eine signifikante örtliche oder räumliche Komponente – in den Daten und/oder bei ihren Auswertungen – vorliegt.

Dies umfasst mindestens zwei interessante Sachverhalte:

a) Geodaten selbst sind wesentlicher Gegenstand der Betrachtung. Dies umfasst einerseits große Mengen georeferenzierter oder georeferenzierbarer Sachdaten. Der einfachste Fall wären hier reine Sachdaten mit assoziierten Punktgeometrien, wie z. B. Tweets mit ihrem Entstehungsort, Messdaten mit dem Sensorstandort oder Einkäufe mit dem Personenstandort. Aus GIS-Sicht interessanter sind Daten mit komplexeren Geometrien, also Linien oder Polygonen. Von praktischer Bedeutung sind hier heutzutage beispielsweise Fahrzeugtrajektorien für die Verkehrsplanung und -steuerung oder Personen-Bewegungsprofile für die Panikforschung, Stadtplanung u. ä.

b) Sachdaten mit Ortsbezug werden in nichttrivialer Weise räumlich ausgewertet, z. B. bei der Hot-Spot-Analyse von Verbrechen, beim Finden einer langsamen Verlagerung bestimmter Wohnmilieus innerhalb einer Stadt, bei der Korrelationsanalyse räumlich auftretender Phänomene etc.

Wir gehen davon aus, dass mittelfristig die Menge von Spatial-Big-Data-Anwendungen stark ansteigen wird – weil auch die Menge von dafür nutzbaren Daten stark anwächst. Dies wird durch verschiedene Entwicklungen gefördert:

  • Immer billigerer und einfacherer Zugang zu immer detaillierteren Satellitendaten (vgl. die Sentinel-Missionen der EU oder jüngere Entwicklungen im Bereich Kleinsatelliten bis zu Nanosatelliten).
  • Zunehmende Anzahl von Forschungsprojekten, kommerziellen Anbietern und Anwendungsideen im Bereich Fernerkundung durch unbemannte Flugobjekte (UAS) wie Drohnen.
  • Immer preisgünstigere und leistungsfähigere In-situ-Sensorik mit (Nah-)Echtzeit-Datenfernübertragung für verschiedenste umweltrelevante Themen, z. B. im Hochwasserbereich.
  • Zunehmend preisgünstige und leistungsfähige mobile Sensorik.
  • mit (Nah-)Echtzeit-Datenfernübertragung, die auf Fahrzeugen montiert (z. B. in der Präzisionslandwirtschaft) oder an Smartphones gekoppelt werden kann (z. B. für die Messung der Luftqualität oder der Lärmbelastung in der Stadt).
  • Wachsende technische Möglichkeiten, Nutzungsszenarien und Benutzerakzeptanz für die Verfolgung beweglicher Objekte (Fußgänger-Tracking, Fahrzeug-Tracking, Warenverfolgung im Internet-of-Things und mit Industrie-4.0-Anwendungen usw.).
  • Nutzergenerierte Geodaten, Volunteered Geographic Information aus Ansätzen zur Bürgerbeteiligung (Citizen Observatories), wie z. B. bei privaten Wetterstationen, OpenStreetMap, Mängelmeldern, Artenfinder-Apps etc.
  • Georeferenzierte (oder georeferenzierbare) Social-Media-Inhalte werden mehr und mehr. Gerade in Business-Anwendungen finden diese große Beachtung, aber beispielsweise auch in Katastrophenszenarien.

All diese Trends lassen uns erwarten, dass eine wachsende Zahl von Spatial-Big-Data-Anwendungen in der nahen Zukunft entstehen wird. Relevante Anwendungsgebiete sind beispielsweise Smart-City-Überwachung und -Steuerung, Präzisionslandwirtschaft und Lebensmittelverfolgung, Verkehrsmanagement und Logistik, Katastrophenschutz und -rettung, erneuerbare Energien, Smart Energy Grid, Klimaanpassung oder Innere Sicherheit.

 

Was tut Disy?

Die Anzahl der akademischen und kommerziellen Werkzeuge, Frameworks und Inititativen im Bereich Smart und Big Data wächst rapide; die Tool-Stacks mit ihren wechselseitigen Abhängigkeiten werden höher, die Landschaft unüberschaubarer, und eine Konsolidierung ist noch nicht abzusehen. Waren vor fünf Jahren nur wenige ernstzunehmende Werkzeuge für Geodaten verfügbar, insbesondere wenn man sich mit Vektordaten befasste, gibt es inzwischen auch hier interessante und ausgesprochen mächtige Tools. Einige davon sind GeoRocket, GeoMESA, GeoTrellis, GeoWave; aber auch von Haus aus weniger Geodaten-bezogene Big-Data-Basistechnologien wie ElasticSearch (verteilte Suchmaschine), Flink (Datenstromverarbeitung), Spark (Cluster-Computing), Ignite (In-Memory-Berechnungen) oder rasdaman (Rasterdatenbank) besitzen teilweise sehr interessante Funktionalitäten für die Hochleistungs-Geodatenverarbeitung. Und neben diesen Open-Source-Entwicklungen stehen natürlich auch die großen Softwareanbieter nicht zurück. Oracle, SAP oder Spezialanbieter wie Exasol bieten schon längst eigene Big-Data-Lösungen inklusive entsprechender Geodaten-Features an.

Für einen Systemintegrator und Lösungsanbieter wie Disy heißt es hier zunächst: Den Überblick über die Entwicklung nicht verlieren, die wichtigsten neuen Werkzeuge erkennen, bewerten und ihre Stärken nutzen können, mit den eigenen Werkzeugen anschlussfähig und interoperabel bleiben, verbleibende Lücken aus Anwender- und Anwendungssicht aufzeigen und stimmige Gesamtarchitekturen schaffen, welche die neuen Technologien praxisorientiert für neue Lösungsansätze nutzbar machen. Solche Ziele verfolgen wir in einer Reihe von Big-Data- und Smart-Data-Projekten bei Disy, teilweise in geförderten Forschungsprojekten, teilweise als Eigeninvest mit kommerziellen Partnern. Einige unserer wichtigsten Aktivitäten:

  • Im BMBF-Big-Data-Projekt BigGIS werden Architekturen, Werkzeuge, Algorithmen und Anwendungsbeispiele für Big Spatial Data entwickelt. Die Arbeiten erfolgen anhand dreier durchgängiger Beispielszenarien: (1) Umweltmonitoring mit Blick auf invasive Spezies wie die Kirschessigfliege, (2) Stadtklima mit urbanen Hitzeinseln und Monitoring der Luftqualität und (3) Katastrophenschutz anhand der Ausbreitung einer Schadgaswolke. Unsere Forschungspartner beschäftigen sich beispielsweise mit neuen In-Memory-Lösungen für Geodaten, innovativen Visualisierungen räumlich-zeitlicher Entwicklungen, effizienter Bildanalyse für Drohnenbeobachtungen, Vorhersageverfahren für komplexe Phänomene oder Entscheidungsunterstützung bei der Planung von Sensorpositionen. Disy bringt in das Projekt sein Geodaten- und Anwendungs-Know-how ein, entwickelt die Gesamtarchitektur fort (Wiener et al. 2016), auch für die containerbasierte skalierbare Infrastrukturbereitstellung, realisiert einfache und benutzerfreundliche Ergebnisdarstellungen (Baron 2017) und Benchmarks für die genutzten Technologien (Roser 2017).
  • Im vom BMWi geförderten Smart-Data-Projekt SmartRegio (Memmel et al. 2017) wurden benutzerfreundliche Mechanismen zum Umgang mit heterogenen Geodaten geschaffen. Ziel war es, kleinen und mittleren Unternehmen Möglichkeiten zu geben, um ihre strategischen Unternehmensentscheidungen mithilfe von Geodatenauswertungen zu verbessern, beispielsweise für Fragen der Standort- oder Sortimentsauswahl oder für gezielte Marketing-Maßnahmen. Im Projekt wurden Methoden der Social-Media-Analyse und der Datenstromverarbeitung mit klassischen GIS-Analysen kombiniert. Disy agierte als Systemintegrator und hatte einen Schwerpunkt bei der Geodatenintegration (Geo-ETL-Prozesse) und -bereitstellung.
  • In verschiedenen internen Projekten und kommerziellen Kooperationen wurden Big-Data-Ansätze für die Präzisionslandwirtschaft und die Agrarindustrie erprobt und zum Einsatz gebracht. Konkrete Themen umfassen beispielsweise die Integration von SAP HANA mit Cadenza, die Evaluation der Geodatenverarbeitung in HANA, die Kopplung von Cadenza mit Farm-Management-Informationssystemen und die bessere Einbindung von Satellitendaten in Cadenza.
  • Im vom BMBF geförderten KMU-innovativ-Projekt WIRE untersuchen wir zusammen mit dem FZI intelligente Methoden (mithilfe von maschinellem Lernen und semantischen Technologien) zur Integration von Geodaten (automatisches Erkennen und Beheben von Datenfehlern, Umgang mit Datenlücken, teilautomatisches Schema-Mapping etc.) anhand von Beispielen aus der Umweltverwaltung und der Landwirtschaft. In diesem Rahmen wird auch die GeoSpatial Integration für Talend als anspruchsvolle Geo-ETL-Lösung weiterentwickelt (Schrauth et al. 2017).
  • Im vom BMVI geförderten mFund-Projekt WEKOVI realisieren wir einfache Benutzerzugänge zu komplexeren Geodatenauswertungen für Open Data bzw. Open Government Data. Zum Einsatz kommen dabei unter anderem ElasticSearch und Stream Pipes, eine am FZI entwickelte Software für die Datenstromverarbeitung.

 

Was kommt danach?

Es läuft also schon einiges in Sachen Big Spatial Data bei Disy. Dennoch gibt es noch viele Themen, die unseres Erachtens noch großes Potential – und große Herausforderungen – bieten und die wir in Zukunft gern noch sehr viel eingehender untersuchen und erforschen würden. Um einige davon zu nennen:

  • intelligente Verfahren für das Geocoding von Daten auch unter schwierigen Bedingungen (Änderung von Straßennamen, Schreibfehler …)
  • Nutzung der (sehr umfangreichen und ständig in Veränderung begriffenen) OpenStreetMap-Daten als Hintergrundwissen in intelligenten Anwendungen
  • Umbau bestehender Software-Architekturen in Richtung Microservice-Architekturen zur besseren Nutzung containerbasierter Virtualisierungslösungen (wie Docker usw.) (Krämer et al. 2017)
  • Ansätze zum Spatial Data Warehousing (SOLAP) durch Hinzufügen einer räumlichen Komponente an OLAP-Lösungen
  • praktische Anwendungen von Spatial Data Mining und Spatial CEP („Complex Event Processing“) sowie von Datenstromanalysen für Geodaten
  • noch benutzerfreundlichere (Richtung „Self-Service Business Intelligence“) und intuitivere Visualisierungen und GUI-Interaktionsformen für komplexe Datenanalysen.


Aktuell sehen wir gerade auf den Gebieten Landwirtschaft und Nahrungsmittelindustrie sowie Innere Sicherheit noch ein großes, ungenutztes Anwendungspotenzial, aber natürlich auch auf den verschiedensten anderen, oben bereits erwähnten Anwendungsfeldern. Wenn auch Sie das spannend finden, gehen Sie mit uns auf die Forschungsreise!

Ansprechpartner

Weitere Fragen zur Entwicklung von Disy und den Forschungsprojekten beantworten Ihnen gerne Dr. Wassilios Kazakos und Dr. Andreas Abecker (Tel. +49 721 16006-000, E-Mail: wassilios.kazakos@disy.net, andreas.abecker@disy.net).

 

Weitere Informationen

BMBF-Projekt BigGIS
BMWi-Projekt SmartRegio
BMVI-mFund-Projekt WEKOVI
BMBF-KMU-innovativ-Projekt WIRE
Geospatial Integration für Talend