Kennzahlen durch räumliche Überlagerung berechnen – Neue Analysemöglichkeiten durch Datenanreicherung in disy Cadenza 2022 Autumn

Mit disy Cadenza 2022 Autumn eröffnen sich durch das neue Datenanreicherungsfeature „Kennzahlen durch räumliche Überlagerung berechnen“ ganz neue Analysemöglichkeiten in der Datenanalysesoftware.

Neues in Cadenza Autumn 2022 - Data Enrichment

Mit disy Cadenza treffen Sie datengestützte Entscheidungen. Die Datenanreicherung ist dabei ein zentrales Analysewerkzeug. Dadurch ergänzen Sie Ihre Daten um wichtige Informationen, die dafür aus verschiedensten Informationsquellen bezogen werden können. Mit der Berechnung von Kennzahlen durch räumliche Überlagerung wird ein Feature aus dieser Funktionskategorie eingeführt.

In diesem Beitrag möchten wir Ihnen den Nutzen der Datenanreicherung näherbringen. Dabei stellen wir Ihnen das neue Feature „Kennzahlen durch räumliche Überlagerung berechnen“ vor und zeigen, wie unsere Datenanalyse-Software disy Cadenza Ihr Analyseerlebnis verbessert und Ihr Entscheidungsfundament verstärkt.

Neu: Datenanreicherung in disy Cadenza

Zwei Datensätze können unabhängig voneinander aussagekräftig sein; enormer Mehrwert entsteht aber durch die Verbindung der Daten, da so ganz neue Sachverhalte betrachtet werden können. Wenn beispielsweise Daten zu Unfallorten und ein 500 x 500 Meter Raster vorliegen, kann die Frage „In welchen Gebieten gibt es sehr häufig Unfälle?“ durch eine Datenanreicherung ganz leicht beantwortet werden. Das kann bei datengestützten Entscheidungen maßgebend sein.

Die Datenanreicherung definiert sich als berechnete Ergänzung bestehender Datensätze um neue Datenfelder. Vereinfacht dargestellt wird die Tabelle der Analysedaten um zusätzliche Spalten mit neuen Informationen ergänzt, wobei diese neuen Informationen sowohl aus internen als auch aus externen Quellen bezogen oder berechnet werden können. Dabei werden die Ergebnisse der Datenanreicherung grundsätzlich in der Analysedatenhaltung gespeichert. Erfahren Sie hier mehr über die Grundlagen der Datenanreicherung.

Datenanreicherungen können entweder über ETL-Prozesse oder im Self-Service durchgeführt werden. Datenanreicherungen über ETL-Prozesse sind Standard, lassen aber für Anwendende kaum Spielraum für Analysen. Deshalb steckt ein deutlicher Mehrwert in der Self-Service-Analytik. So können Anwendende sich ad-hoc und flexibel neue Analysefragen suchen und neue, nicht kuratierte Daten einbringen. Aus diesem Grund liegt der Fokus für disy Cadenza beim Self-Service.

Neben diesem Fokus befinden wir uns beim neuen Feature zur Datenanreicherung im Bereich „Geo-Analytics“, da die Relevanz von Location Intelligence in Organisationen immer weiter zunimmt. Mit unserem neuen Feature entsteht damit Spielraum für viele neue Analysemöglichkeiten.

Erste Schritte Datenanreicherung:
Kennzahlen durch räumliche Überlagerung berechnen

Schaubild mit Beispiel zur Operation „Kennzahlen durch räumliche Überlagerung berechnen“ in der Datenanalyse-Software disy Cadenza

Beispiel zur Operation „Kennzahlen durch räumliche Überlagerung berechnen“

Bei der Datenanalyse besteht häufig der Bedarf, Informationen aus dem räumlichen Umfeld der Analysedaten einzubeziehen. Allgemein gesehen erhalten Analysedaten, die einen geografischen Bezug haben (wie Kundenstandorte, Haltestellen, Krankenhäuser, Messstellen, Straßenabschnitte, Flurstücke, etc.), neue Informationsattribute durch ihre räumliche Beziehung zu einem weiteren Datensatz, der ebenfalls einen geografischen Bezug besitzt. Da die Ergebnisse gespeichert werden, kann die Operation auch für große Datenmengen und komplexe Berechnungen durchgeführt werden.

Ein verbreiteter Use-Case besteht in der Analyse der Merkmalsverteilung. Wenn beispielsweise analysiert werden soll, wo sich Unfallschwerpunkte befinden, kann die Datenanreicherung mittels „Kennzahlen durch räumliche Überlagerung berechnen“ Abhilfe schaffen: Angenommen, es liegen ein Datensatz mit Informationen zu PKW-Unfällen und ein anderer mit Informationen zu Rasterzellen (500 x 500 m) vor. Die Datenanreicherungsfunktion sucht dann anhand der Geokoordinaten für jede Rasterzelle die in ihm liegenden Unfallorte, summiert diese auf und ergänzt die Daten einer Rasterzelle mit dieser Summe.

Mit nur wenigen Klicks erhält man als Ergebnis eine neue Kennzahl, die die Anzahl der PKW-Unfälle pro Rasterzelle beinhaltet. Dieser angereicherte Datensatz eignet sich nun hervorragend dazu, Unfallschwerpunkte zu ermitteln, um auf dieser Informationsbasis Ursachenforschung betreiben zu können und Maßnahmen abzuleiten sowie ein Ranking zu erstellen.

Schaubild mit zweitem Beispiel zur Operation „Kennzahlen durch räumliche Überlagerung berechnen“ in der Datenanalyse-Software disy Cadenza

Weiteres Beispiel zur Operation „Kennzahlen durch räumliche Überlagerung berechnen“

Die neue Kennzahl wird im angereicherten Objekttyp im Datenmanager mit aufgelistet. Sie kann nun für die weitere Analyse in der Arbeitsmappe genutzt werden.

Die Ursprungstabelle wird dabei folgendermaßen angereichert:

Daten in der Tabelle vor und nach der Datenanreicherung in der Datenanalyse-Software disy Cadenza

Daten in der Tabelle vor und nach der Datenanreicherung

Datenanreicherung: Aus Unfall-Punktdaten und Rasterzellen eine neue Kennzahl in der Datenanalyse-Software disy Cadenza erstellen

Aus Unfall-Punktdaten und Rasterzellen eine neue Kennzahl erstellen

Für Attribute, die mittels einer Kennzahl-Berechnung im Rahmen einer Datenanreicherung entstanden sind, gibt es zwei Optionen: Die Kennzahl kann neu berechnet oder bearbeitet werden. Notwendig wird dies, wenn sich beispielsweise die Datengrundlage der Kennzahlberechnung aktualisiert hat oder Berechnungsparameter angepasst werden müssen.

Zusammenfassend bedeutet das: Merkmale aus den Analyseobjekten eines Datensatzes mit Raumbezug (wie Unfallorte, Krankenhäuser, Straßenabschnitte, etc.) werden in ihrer räumlichen Verteilung untersucht und dafür auf Bezugsgeometrien aggregiert übertragen. Dabei kann nach Merkmalsverteilung in normierten oder fachlichen Räumen gefragt werden:

  • Normiert: Merkmal Unfälle wird auf Planquadrate als normierte Bezugsflächen abgebildet. Die neue Kennzahl beinhaltet „Anzahl Unfälle pro Quadrat“
  • Fachlich: Merkmal Unfälle wird auf regionale Versorgungsgebiete abgebildet. Die neue Kennzahl beinhaltet „Anzahl Unfälle pro Versorgungsgebiet“

Mehr Data Enrichment-Funktionalitäten erwarten Sie auch in den nächsten disy Cadenza-Versionen

Wie Sie sehen konnten, bringt das Feature „Kennzahlen durch räumliche Überlagerung berechnen“ viele Vorteile mit sich. Die Datenanreicherung macht Analysten handlungsfähiger, da die Analysemöglichkeiten maßgeblich erweitert werden. Durch die Anreicherung der Daten um neue Merkmale aus anderen Quellen kann eine Erweiterung der Aussagekraft der Analysedaten erzielt werden.

Das Verfahren der Datenanreicherung kann auch abseits des räumlichen Kontextes angewendet werden, um beispielsweise Ihre Sachdaten zu ergänzen. Eine zukünftige Weiterentwicklung in diesem Bereich ist bereits angedacht. Es bleibt also spannend! Für mehr Informationen kontaktieren Sie uns gerne.