Spatial-ETL mit Talend

Spatial-ETL ist der Prozess der Zusammenführung von unterschiedlichen Daten einschließlich Geodaten. Mit GeoSpatial Integration für Talend schließt Disy eine große Lücke im Bereich Spatial-ETL-Tools. Nun ist es möglich, mit Talend auch Geodaten aus unterschiedlichen Geodatenbanken und Geodatenformaten einzubinden und mittels Geo-Operationen, wie Verschneidung oder Pufferung direkt im Datenintegrationsprozess zu verarbeiten.

Spatial ETL mit Talend von Disy

Für Behörden und Unternehmen wird es immer wichtiger, die wachsende Menge Daten und Geodaten aus Fachanwendungen oder Sensoren für übergreifende Auswertungen, Datenportale und Berichtspflichten zusammenzuführen, zu prüfen und bereitzustellen. Mit Spatial-ETL bezeichnet man genau diesen Prozess zur Zusammenführung unterschiedlicher Daten einschließlich Geodaten.

Disy setzt seit mehreren Jahren auf die Softwareplattform von Talend. Talend ist einer der Weltmarktführer im Bereich der Datenintegration. Jetzt hat Disy ein Spatal-ETL-Plugin für Talend entwickelt, mit dem Geodaten nahtlos in Talend genutzt und verarbeitet werden können. Die Software kann für Talend Open Studio ab sofort kostenlos heruntergeladen werden.

In zahlreichen Projekten spielen neben Sachdaten vor allem Geodaten eine entscheidende Rolle. Diese haben besondere Anforderungen, die bis dato in ETL-Werkzeugen wie Talend nur ansatzweise berücksichtigt sind. Häufig musste für die Verarbeitung von Geodaten auf zusätzliche Werkzeuge zurückgegriffen werden. So entstand der Wunsch nach einem Tool, das sich so nahtlos wie möglich in den bewährten Talend-Prozess einzubinden lässt, so dass der Nutzer eine einheitliche Arbeitsweise für alle Daten anwenden kann. Wir sprechen in dem Fall von einem Tool für Spatial-ETL oder auch Geo-ETL-Tool.

Disy hat mit "GeoSpatial Integration für Talend" eine Erweiterung für Spatial-ETL entwickelt, die zusätzliche Konnektoren für Geodatenquellen sowie für räumliche Kalkulatoren und räumliche Operatoren bereitstellt. Dadurch können alphanumerische Daten geometrisch angereichert und Geodaten einfach in Datenintegrationsprozesse eingebunden werden. In die Entwicklung flossen bei Disy zwei Grundüberlegungen ein: Zum einen kennen wir aus zahlreichen Projekten genau die Anforderungen für die Verarbeitung von Geodaten in einem Datenintegrationsprozess und könnten durch unsere Erfahrung ein schlankes Werkzeug schaffen, das passgenau das Thema Geodaten in Datawarehouse-Projekten abdeckt. Zum anderen haben wir in unseren Kundenprojekten einen hohen Bedarf an effizienten Lösungen gesehen. Die Datenmenge steigt konstant und ist ohne entsprechende Werkzeuge nur mit hohem Personalaufwand zu nutzen.

Aus ETL wird Spatial-ETL: Nahtlose Erweiterung der Talend-Werkzeugleiste mit zusätzlichen Geooperationen

Spatial-ETL Prozesse lassen sich per Drag-and-Drop umsetzen.

Oberfläche der Talend Software: Spatial-ETL-Prozesse lassen sich per Drag-and-Drop der Komponenten und Routinen visuell umsetzen.

Das neue Plug-in für Spatial-ETL wird in die Talend-Umgebung direkt eingebunden und erweitert somit die vorhandene Werkzeugleiste nahtlos. Der Benutzer sieht die zusätzlichen Datenquellen sowie die neuen Operatoren, die er per Drag-and-drop in das Arbeitsfenster übernehmen kann. Abhängig von der aktuell genutzten Komponente kann er weitere Einstellungen vornehmen oder zusätzliche Berechnungen durchführen.

Weit verbreitete relationale Datenbanken wie Oracle oder PostgreSQL unterstützen bereits seit einigen Jahren mit Oracle Locator/Spatial oder PostGIS räumliche Datentypen und Operatoren für die Verarbeitung von Geodaten.

Mit dem von Disy entwickelten Spatial-ETL-Plug-in GeoSpatial Integration für Talend können nun diese Geodaten direkt mit eingebunden werden. Konkret unterstützt das Plug-in aktuell folgende Datenbanken und Formate: Oracle Locator und Spatial, PostgreSQL mit PostGIS, SQLite mit SpatiaLite sowie Shapefiles und WKT (Well-Known-Text). Weitere Connectoren für SAP HANA oder ArcGIS Server werden folgen.

Hinzu kommen eine Vielzahl an Komponenten und räumlichen Operatoren, mit deren Hilfe Geooperationen durchgeführt werden. Hierzu zählen Längen- und Flächenberechnungen, die Umwandlung von X-, Y- und Z-Koordinaten in 2D/3D-Punktgeometrien, die Berechnung von Centroiden, die Pufferung von Punkten, Linien und Flächen, die Verschneidung von Geometrien, die Berechnung einer Bounding Box (envelope) oder einer konvexen Hülle einer oder mehrerer Geometrien, die Verbindung von Punkten zu Linien bzw. von Linien zu Flächen sowie die Transformation der Koordinaten zwischen unterschiedlichen Koordinatensystemen, die algorithmische Vereinfachung von komplexen Geometrien oder gar die Validierung von Eingangsdaten (z. B. Shapefiles).

Effizienzsteigerung und Kostenreduktion durch einheitliches Werkzeug für ETL und Spatial-ETL

Für den Aufbau von Data Warehouses oder Auswertedatenbanken mit Geodaten ergeben sich durch diese Lösung zwei zentrale Vorteile: (1) Alle benötigten Datenarten können ohne Technologiebruch mit einem statt wie bisher mit mehreren Werkzeugen verarbeitet werden. Dies spart organisatorischen Aufwand zur Zusammenführung der Werkzeuge, reduziert den Einarbeitungsaufwand und stellt ein konsistentes Vorgehen bei alphanumerischen Daten und Geodaten sicher. (2) Bewährte und praxiserprobte ETL-Technologien, wie sie von Talend bereits für Sachdaten angeboten werden, können nun auch für die Geodatenverarbeitung genutzt werden, so dass Talend zum Werkzeug für Spatial-ETL erweitert wird. Neben der sehr umfassenden Menge an Datenquellen, Komponenten und Routinen, die mit GeoSpatial Integration mitgeliefert werden, gehören hierzu vor allem auch Funktionen, die Talend bereits mitbringt. Besonders hervorzuheben sind hierbei Funktionen zur Versionsverwaltung, zum Metadatenmanagement, zum Arbeiten in verteilten Teams und Releasemanagement, zum Refactoring sowie zur zentralen Administration, dem Load-Balancing oder sogar der Big-Data-Verarbeitung.

Ein Beispiel für Spatial-ETL ist die autmatisierte Verarbeitung von GPS-Tracks.

Ein Beispiel für Spatial-ETL: Automatisierte Verarbeitung von GPS-Tracks von Schiffsrouten mit Talend und anschließender Visualisierung der Tracks mit Cadenza

Talend – ein „Leader“ im Bereich Datenintegration

Talend im "Magic Quadrant for Data Integration Tools" von Gartner (Quelle: Gartner, August 2016). ETL bzw. Spatial-ETL sind Kernprozesse bei der Datenintegration.

Talend hat sich auf die Integration von großen Datenmengen bis hin zu BigData und Streaming Data spezialisiert und ist inzwischen auch ein weltweit führendes Unternehmen in den Bereichen BigData- und Cloud-Integrationslösungen. Im Jahr 2016 wurde Talend in diesem Zusammenhang sogar in den „Magic Quadrant for Data Integration Tools“ von Gartner als ein „Leader“ im Bereich Datenintegration aufgenommen.

Kostenloser Download des Spatial-ETL Tools, Webinar und Schulungen

Für Talend Open Studio steht das Spatial-ETL-Plug-in "GeoSpatial Integration für Talend" ab sofort zur Verfügung. Für Talend Open Studio ist das Plugin kostenlos, so dass Sie es testen und in kleineren Szenarien direkt nutzen können. Für Unternehmen und Behörden, die die Lösung in größeren Produktivsystemen und mit Talend Data Integration, Talend Data Management Platform oder Talend Real-time Big Data einsetzen möchten, wird ein jährliches Abonnement (Subscription) für professionellen Support und Zusatzfunktionen zur Datenqualität, Visualisierung etc. angeboten.

Wenn Sie Talend und GeoSpatial Integration für Talend ausprobieren möchten, können Sie sich das Plugin für Talend Open Studio unter folgendem Link herunterladen: Download GeoSpatial Integration für Talend Open Studio.

Bei Fragen zum Plugin, zu Version oder zu Talend selbst können Sie sich direkt an uns wenden oder eins unserer Webinare oder eine Schulung besuchen. Eine Übersicht mit Webinaren und Schulungen zu Spatial-ETL mit Talend und anderen Themen finden Sie in unserer Disy Akademie hier: Schulungen.

 

Weitere Informationen

Download GeoSpatial Integration für Talend Open Studio.
Webseite von Talend