Durch Datenanreicherung wichtige Informationen ergänzen

Bei der Datenanalyse ist es oft nötig, zunächst getrennte Sachverhalte in Beziehung zu setzen, in einem einzigen Analysedatensatz zusammenzuführen und dann zu analysieren. Hier setzt die Datenanreicherung an.

Neues in Cadenza Autumn 2022 - Data Enrichment

Zwei Datensätze, bspw. Krankenhäuser mit Informationen zur Bettenanzahl sowie Daten zu Landkreisen, können unabhängig voneinander aussagekräftig sein; enormer Mehrwert entsteht aber durch die Verbindung der Daten, da so ganz neue Sachverhalte betrachtet werden können. So kann z. B. die Frage „In welchen Gebieten gibt es genug Krankenhausbetten?“ mittels Datenanreicherung ganz leicht beantwortet werden. Dieser Unterschied kann beim Treffen von datengestützten Entscheidungen maßgebend sein.

Oftmals werden Daten über eine semantische Verknüpfung miteinander in Beziehung gesetzt. Ist dies nicht möglich, bleiben wichtige Erkenntnisse auf der Strecke. Bei der Datenanreicherung ist eine semantische Verbindung nicht nötig. Eine Verknüpfung der Daten kann über den vorhandenen Raumbezug entstehen.

In diesem Beitrag möchten wir Ihnen den Nutzen der Datenanreicherung näherbringen und dabei vermitteln, wie die Datenanreicherung Ihr Analyseerlebnis verbessert und Ihr Entscheidungsfundament verstärkt.

Datenanreicherung? Was ist das?

Aber ganz von vorne: Die Datenanreicherung (Data Enrichment) ist eine Funktionskategorie im Bereich der Datenanalyse und stellt ein grundlegendes Analysekonzept dar. Das Prinzip der Datenanreicherung ist die automatisierte Ergänzung bestehender Datensätze um neue Datenfelder. Vereinfacht dargestellt wird die Tabelle der Analysedaten um zusätzliche Spalten mit neuen Informationen ergänzt, wobei diese neuen Informationen sowohl aus internen als auch aus externen Quellen bezogen oder berechnet werden können. Dabei werden die Ergebnisse der Datenanreicherung grundsätzlich in der Analysedatenhaltung gespeichert.

ETL vs. Self-Service

Datenanreicherungen können entweder über ETL-Prozesse oder im Self-Service durchgeführt werden. Als üblicher Vorgang in der Datenaufbereitung, werden Datenanreicherungen primär über ETL-Strecken gemacht. Dabei bekommen Anwendende von diesem Prozess nichts mit. Die Datenanreicherung hat hierbei einen festen Analysezweck, ist also für vorher festgelegte Analysefragen vorbereitet.

Datenanreicherung im Self-Service hingegen ermöglicht Anwendenden viel Flexibilität in der Datenanalyse. So muss nicht bereits bei der Datenaufbereitung die finale Analysefragestellung klar sein. Analysierende haben die Möglichkeit, Daten explorativ zu analysieren und sich so eventuell entscheidenden Erkenntnissen nähern.

Datenanreicherungen über ETL-Prozesse sind oft Standard, lassen aber für Anwendende kaum Spielraum für spontane Analysen. Deshalb steckt ein deutlicher Mehrwert in der Self-Service-Analytik. So können Anwendende sich ad-hoc und flexibel neue Analysezwecke suchen und neue, nicht kuratierte Daten einbringen.

Datenanreicherung bringt Nutzen in vielen Bereichen

Es gibt drei Funktionskategorien in der Datenanalyse, in denen Datenanreicherungen in verschiedener Ausprägung erfolgen kann. In allen Bereichen entstehen durch die Datenanreicherung enorme Mehrwerte.

  • Business-Analytics/Mehrdimensionale Analyse (bspw. relative Kennzahlen)
  • Geo-Analytics (bspw. Geokodierung)
  • Advanced Analytics (bspw. Ausreißererkennung)

Die Art der Datenanreicherung kann also sowohl Sach- als auch Geodaten betreffen.

Schaubild zum Schema der Datenanreicherung mit Beispiel in der Datenanalyse-Software disy Cadenza

Schema der Datenanreicherung mit Beispiel in disy Cadenza

Das Datenanreicherungsschema

Zum Durchführen einer Datenanreicherung werden immer

  • die Analysedaten,
  • die Anreicherungsfunktion und
  • die Informationsquelle (aus eigenen Datenquellen oder aus externen Quellen, wie beispielsweise Datenbanken oder Services)

benötigt. Das Ergebnis sind die angereicherten Analysedaten.

Zum besseren Verständnis schauen wir ein Beispiel zur Datenanreicherung mit Geodaten an.

Wenn Sie beispielsweise eine Liste mit Adressen durch einen Geokodierungsservice (Webservice) mit Standortmerkmalen anreichern, erhalten Sie als Ergebnis Standorte mit Informationen zu Adressen. In der nachfolgenden Abbildung sehen Sie die Daten in einer Tabelle vor und nach der Datenanreicherung mittels Geokodierung.

Daten in der Tabelle vor und nach der Datenanreicherung in der Datenanalyse-Software disy Cadenza

Daten in der Tabelle vor und nach der Datenanreicherung

Da ca. 80% aller Daten einen Raumbezug haben, können auf diese Art und Weise enorm viele Themen zusammengebracht werden. Datenanreicherungen können aber auch über andere Verfahren, z. B. aus dem Bereich Advanced Analytics berechnet und angereichert werden:

Segmentierung / Clusterung

Gruppierung von Elementen auf der Grundlage von Ähnlichkeiten

Vorhersage

Ableitung zukünftiger Werte als Prognose

Datenanreicherung und Segmentierung/Clusterung in der Datenanalyse-Software disy Cadenza

Über ein statistisches Clusterverfahren wird jeder Datensatz einer Klasse zugeordnet. Man reichert also den Datensatz um eine Auswertedimension an, über die dann weiter analysiert werden kann.

Datenanreicherung und Vorhersage in der Datenanalyse-Software disy Cadenza

Über ein Prognosemodell kann der Datensatz in die Zukunft fortgeschrieben werden.

Vorteile der Datenanreicherung

Die Datenanreicherung bringt viele Vorteile mit sich. Allem voran entsteht der größte Nutzen dadurch, dass Kontext und Aussagekraft der Daten maßgeblich erweitert werden. Durch die Speicherung, also Materialisierung der aus der Datenanreicherung entstandenen Daten, sind diese sehr performant. Daher ist eine Datenanreicherung – im Gegensatz zu dynamischen Berechnungen – auch für große Datenmengen und komplexe Berechnungen ein geeignetes Verfahren. Bei der Datenanreicherung sind Sie außerdem nicht darauf angewiesen, dass bereits eine explizite Verknüpfung zwischen Ihren Analysedaten und der Informationsquelle existiert, wie es die Bedingung für eine relationale Datenabfrage wäre. Auch implizite Beziehungen, wie beispielsweise die räumliche Nähe zwischen den Analysedaten und der Informationsquelle, können genutzt werden. Außerdem sind die Berechnungsergebnisse direkt abfragbar und filterbar.

Schaubild zu kaskadierender Datenanreicherung in der Datenanalyse-Software disy Cadenza

Auch eine kaskadierende Datenanreicherung ist möglich

Datenanreicherungen können aufeinander aufbauen

Durch eine Datenanreicherung berechnete Attribute können prinzipiell auch als Eingangsattribute in weiteren Datenanreicherungen verwendet, also verkettet werden. Das eröffnet noch viel mehr Spielraum und Möglichkeiten bei der Datenanalyse. Hier ein Beispiel mit Geo-Fokus: „Wie viele Menschen erreichen mindestens eine Haltestelle innerhalb von fünf Minuten?“ Dazu werden die Adressen mit Koordinaten angereichert. Daraus resultieren Standorte. Dann wird jeder Standort mit der Fünf-Minuten-Erreichbarkeitszone angereichert. Anschließend werden diese mit Einwohnerzahlen überlagert und so die Anzahl der entsprechenden Einwohner angereichert.

Datenanreicherung in disy Cadenza

Auch in disy Cadenza können Datenanreicherungen durchgeführt werden. Vor Kurzem wurde das erste Feature aus dem Geo-Kontext releast: Kennzahlen durch räumliche Überlagerung berechnen. Neugierig geworden? Dann klicken Sie hier, um mehr zu erfahren!