San Franciscos Nahverkehr profitiert von integriertem Geodatenmanagement in der Talend-Plattform

Die SFMTA, San Franciscos Verkehrsbetriebe, setzen für das Management ihrer Mobilitätsdaten auf die Datenverarbeitung mit Talend Real-Time Big Data und GeoSpatial Integration für Talend von Disy. Ein massiver Zeitvorteil stellte sich ein.

San Franciscos Nahverkehr profitiert von integriertem Geodatenmanagement in der Talend-Plattform

Rund 800.000 Menschen leben in San Francisco. Hundertausende Einwohner und Pendler nutzen täglich das Nahverkehrssystem der SFMTA. Das Unternehmen managt den öffentlichen Personennahverkehr und bietet darüber hinaus vielfältige Dienstleistungen an: Ein Fahrrad-, e-Scooter- und Moped-Verleih, Genehmigungen für Straßensperrungen und Parkausweise sowie Services für Fußgänger zählen dazu. Um den täglichen Zeit- und Ablaufplan einzuhalten, arbeitet die SFMTA mit einem ausgeklügelten Datenmanagement. In Microsoft Azure Synapse laufen die Datenströme zusammen: Daten von Zustiegen in die Bahnen, temporären Baustellen, aber auch alle Daten zu Parkverbotszonen bis hin zur Lage der Bordsteine, die die Haltestellen begrenzen, fließen ein. Auch Daten aus der Buchung der individuellen Verkehrsmittel sind dabei.

Die Daten müssen schnell verarbeitet, miteinander kombiniert, harmonisiert, qualitätsgesichert und in unterschiedliche Datenpools einströmen. „Es entstehen täglich viele Datensätze rund um das Verkehrsnetz von San Francisco. Rund 21.000 Fahrten kommen allein mit e-Scooter pro Tag zusammen. 700.000 Boardings pro Tag werden in anderen Teilen des Systems erfasst.“, beschreibt Cheong-Tseng Eng, Data Services Manager bei SFMTA die Aufgabe. Innerhalb seines Teams werden die Daten modelliert, in Data Warehouses verteilt und linear referenzierten Daten verarbeitet.

Geodatenverarbeitung führte bisher zu längeren Laufzeiten

Für die Verarbeitung der Daten wurden in Engs Team bislang zwei Tools eingesetzt: Zum einen Talend Real-Time Big Data, mit deren Hilfe alphanumerischen Daten verarbeitet werden; zum anderen eine Lösung speziell für die Bearbeitung und das Management von Geodaten, da Talend allein keine Geodaten verarbeiten kann. „Dies bedeutete, dass alle unsere Daten zur räumlichen Verarbeitung an eine Geodatenbank weitergeleitet und die gesamte Datenverarbeitung in großem Maßstab dort durchführt werden musste“ beschreibt Eng die Datenprozesse. „Dies verlangsamte den Datenintegrationsprozess enorm.“

Das Spatial-ETL-Plug-in GeoSpatial Integration in Talend Real-Time Big Data

Das Spatial-ETL-Plug-in GeoSpatial Integration in Talend Real-Time Big Data

Zeitersparnis durch direkte Einbindung von Geodatenbanken- und quellen

Die SFMTA ist mit dem Plug-in in der Lage, eine durchgehend hohe, kontrollierbare Qualität ihrer Mobilitätsdaten bei gleichzeitig wesentlich schnelleren und effizienteren Prozessen bereitzustellen. GeoSpatial Integration für Talend wird genutzt, um die vielfältigen Daten einschließlich der Geodaten einheitlich zu verarbeiten. Als Datenquellen und -banken werden PostGIS, Oracle Locator und Oracle Spatial, SpatiaLite, ArcGIS Server, Shapefile sowie GeoJSON direkt unterstützt. Wie das Beispiel San Francisco zeigt, eignet sich die Lösung auch, um einen Data Lake auf Basis von Microsoft Azure Synapse aufzubauen, in dem alle Daten einer Organisation auch als Rohdaten für die spätere Verarbeitung und Verteilung abgelegt werden.


Plug-in stellt GIS-Know-how für einheitliche Datenverarbeitung bereit

Mit dem Disy-Plugin stehen alle Mehrwerte der bereits bei der SFMTA eingesetzten Talend-Plattform auch für die Verarbeitung von Geodaten zur Verfügung: Funktionen zur Verwaltung und zum Monitoring, wie Hochverfügbarkeit und Lastverteilung, einen Deployment-Manager, Benutzerverwaltung, Ausführungsplanung, Einführung von Prüfpunkten und Fehlerbehebung, Monitoring der Aktivitäten bis hin zum Log-Server mit eigenem Dashboard helfen der SFMTA, stets den Überblick über die aktuellen Prozesse und den Stand der Datenverarbeitung inklusive integrierten Geodaten zu behalten. Ein weiterer Vorteil stellte sich im Team von Cheong-Tseng Eng ein: „Das Plug-in ermöglichte unseren Dateningenieuren, räumliche Operationen selbständig durchzuführen, ohne auf die Ressourcen von spezialisierten GIS-Mitarbeitern zugreifen zu müssen.“


Ausweitung auf Nutzung der Daten in Echtzeit geplant

SFMTA verarbeitet mit Talend und GeoSpatial Integration für Talend zurzeit Daten gemäß der Mobility Data Spezifikation (MDS) der Fahrzeugarten e-Scooter, Fahrrad und Moped. Erzeugt bzw. verarbeitet werden Informationen über Reisewege, Verfügbarkeit und Nutzungsmuster. Die finalen Daten werden über zwei Schnittstellen weiteren Anwendungen zur Verfügung gestellt. Die zu verarbeitenden Datenmenge ist enorm: Rund 100.000 Transaktionen pro Tag werden durchgeführt. Die SFMTA geht von einem künftigen Anstieg der Transaktion auf 200.000 pro Tag aus. Für die Zukunft plant Cheong-Tseng Eng die Nutzung seiner Daten durch Dritte im Echt-Zeit-Modus: „Wir haben Echtzeitanforderungen für anstehende Projekte. Die Reaktionszeit für diese Projekte werden zwischen einer Subsekunde und 30 Sekunden liegen.“ Mit Talend Real-Time-Big-Data und GeoSpatial Integration für Talend sind er und sein Team bei SFMTA bestens gerüstet.