Hic sunt data: Expedition ins unbekannte Datenreich

Wie entdecken Sie Zusammenhänge oder Auffälligkeiten in Ihren Daten? Haben Sie schon einmal versucht, die Perspektive zu wechseln, um plötzlich neue Potenziale oder auch Trends zu erkennen? Begleiten Sie uns auf eine Expedition ins unbekannte Datenreich mit Hilfe von Cadenza, OLAP und Data Discovery.

Hic sunt data: Expedition ins unbekannte Datenreich

Bei geschäftlichen, politischen oder administrativen Entscheidungen ist häufig eine Betrachtung der Faktenlage aus unterschiedlichen Perspektiven notwendig. Der Ausdruck „um eine Entscheidung ringen“ drückt diese Notwendigkeit des Perspektivwechsels und Hin- und Herbewegens der Gedanken sehr schön aus und kann auch auf datenbasierte Entscheidungen übertragen werden. Die flexible, jederzeitig mögliche und auch spontane Analyse von Messwerten, Beobachtungen oder Kennzahlen – oft suchend und ohne konkrete Zielsetzung – ist eine wichtige Voraussetzung für einen solchen Perspektivwechsel. Und sie hilft, Auffälligkeiten, Optimierungspotenziale oder auch neue Chancen in Daten zu identifizieren.

Der technische Ansatz, der diesen Perspektivwechsel in den Daten und damit die Analyse entlang vieler Dimensionen ermöglicht, heißt Online Analytical Processing (kurz: OLAP). Mit OLAP sind fortgeschrittene Analysen möglich, deren genaue Ausprägung noch nicht ganz klar ist.  Das damit verbundene Handeln ist u. a. unter dem Begriff „Data Discovery“ bekannt.

Auf den Karten im Mittelalter waren Drachen und Löwen abgebildet, und der Ausdruck „Hic sunt dracones“ („Hier sind Drachen“) zeugte von Unwissenheit, spornte aber auch gleichzeitig zum Handeln und systematischen Erkunden an. Unbekannte Daten können mit der neu in Cadenza implementierten OLAP-Funktionalität erkundet werden: „Hic sunt data“ also.

 

Mehrdimensionale Analyse mit OLAP

Der Begriff Online Analytical Processing (OLAP) wurde bereits 1993 durch Codd et. al. (1) geprägt. Heutzutage steht OLAP als Überbegriff für Technologien, Methoden und Tools zur Ad-hoc-Analyse multidimensionaler Informationen. Ziel von OLAP ist es, dem Anwender multidimensionale Kennzahleninformationen für unterschiedliche, flexible Analysen zur Verfügung zu stellen. Mithilfe dieser Funktionalität kann der Anwender Antworten finden auf Fragestellungen, die er zuvor noch gar nicht gekannt hat. Obwohl OLAP primär mit der Analyse von Geschäftsdaten in Verbindung gebracht wird, beispielsweise im Finanz- oder Vertriebscontrolling, eignet sich der Ansatz sehr gut für die Analyse von zahlenorientierten Daten wie Kennzahlen, Beobachtungen oder Messungen.

Die Methodik der Datenmodellierung mittels OLAP lässt sich gut zur multidimensionalen Analyse einsetzen. Entsprechende Bedienelemente in der Cadenza-Oberfläche ermöglichen diese Art der Datenerforschung. Der Anwender kann flexibel zwischen den verschiedenen Hierarchieebenen wechseln. Die Kennzahlattribute der Tabelle werden dabei automatisch entsprechend der Hierarchieebene aggregiert. Auch in Diagrammen, die Hierarchien nutzen, ist ein schneller Wechsel zwischen den Hierarchieebenen möglich. Folgende Animation illustriert, wie sich das auf die Benutzeroberfläche auswirkt.

 

Cadenza ermöglicht durch die integrierte OLAP-Funktionalität eine tiefe und umfassende Datenanalyse (erstellt mit fiktiven Daten)

Technisch liegt dem OLAP-System ein Würfelmodell zugrunde: Der multidimensionale Würfel besteht aus Dimensionen und Kennzahlen. Auch wenn zu Illustrationszwecken in der Darstellung nur drei Dimensionen gezeigt werden, so besteht das Datenmodell üblicherweise eher aus 4-8 Dimensionen.

Beispiel eines mehrdimensionalen Würfels

Dimensionen können diskret oder hierarchisch sein und beschreiben die verschiedenen Ausprägungsrichtungen des Würfels. In der Grafik sehen wir ein Beispiel für einen 3-dimensionalen OLAP-Würfel, der ein fiktives Szenario aus dem Bereich der Inneren Sicherheit beschreibt. Um diverse fachliche Kennzahlen für den Bereich von Einbruchsdiebstählen zu ermitteln, ist es z. B. relevant zu wissen, wo eingebrochen wurde (welche Adresse in welcher Gemeinde, welchem Landkreis, welchem Bundesland etc.), in welche Gebäudeart eingebrochen wurde (in eine Wohnung, ein Hotel oder ein Gartenhaus) und wie der Einbruch geschah (wurde ein Fenster eingeschlagen, die Tür aufgehebelt oder ein Schloss aufgebrochen). All das sind Dimensionen dieses Szenarios.

Einige Dimensionen weisen zudem Besonderheiten auf: Sie sind hierarchisch voneinander abhängig. So können unter dem Begriff „Tatort“ die verschiedenen Verwaltungseinheiten zusammengefasst sein, die hierarchisch voneinander abhängen: Bundesland > Landkreis > Gemeinde > Straße > Hausnummer. Analog bilden auch zeitbezogene Attribute Hierarchien aus: Am Beispiel der Tatzeit wären mögliche verschiedene Verdichtungsgrade: Jahr > Quartal > Monat > Tag ... je nach gewünschtem Detailgrad.

Die erwähnten Kennzahlen beschreiben die Knotenpunkte des OLAP-Würfels (die Ecken der kleinen Subwürfel). Welche Kennzahlen Anwendung finden, hängt vom konkreten Anwendungsfall ab. Für Einbruchsdelikte ist es z. B. relevant zu wissen, wie viele Täter jeweils an einem Delikt beteiligt waren (sofern das bekannt ist), wie hoch der entstandene Schaden ist (z. B. in Euro) oder ob Personen bei dem Delikt verletzt wurden (ja/nein). Diese Kennzahlen sind jeweils abhängig von den Dimensionswerten. Kennzahlen sind also oftmals numerische Datentypen (jedoch nicht zwangsläufig) und bilden stets die Basis für eine Aggregation (das Zusammenfassen mehrerer Werte zu einer einzelnen Zahl, z. B. Summe, Durchschnitt, Maximum).

Entlang von Analysedimensionen bewegen

Im Analyseprozess stehen dem Nutzer nun verschiedene Möglichkeiten zur Verfügung. Wie von Cadenza gewohnt kann der Nutzer auch in einer OLAP-Tabelle nach verschiedenen Attributen filtern. Wird hierbei nach einer Dimension des OLAP Würfels gefiltert, spricht man von "Slicing": Aus dem Würfel wird eine Scheibe herausgeschnitten; die Dicke der Scheibe ist abhängig davon, nach wie vielen Werten gefiltert wird. Filtert ein Nutzer nach mehreren Dimensionen gleichzeitig, führt er ein "Dicing" durch: Er schneidet aus dem vorherigen OLAP-Würfel einen Teilwürfel aus.

Möchte ein Ermittler nun zudem wissen, ob die Einbruchsdelikte aus dem Beispiel eine zeitliche Konzentration haben oder ganzjährig gleichverteilt stattfinden, kann er dynamisch die Dimension der Zeit (im Beispiel den Tatzeitpunkt) hinzufügen. Im Würfelmodell spricht man vom "Splitting". Alle Kennzahlen des Würfels müssen dann diese Dimension ebenfalls mit einbeziehen. Das heißt, dass die bisherigen Kennzahlen nach den Werten einer weiteren Dimension "gesplittet" (aufgeteilt, aufgespalten) werden. Umgekehrt kann ein Nutzer auch sein Datenmodell reduzieren, indem er nicht mehr benötigte Dimensionen entfernt. Die Kennzahlwerte werden dadurch wieder weiter zusammengeführt.

Ferner kann der Nutzer Analysen mit verschiedenem Detailgrad durchführen (der sogenannte Drillup, Drilldown). Besteht eine Würfelkante aus einer Hierarchie (wie z. B. aus dem Tatort), kann der Nutzer zwischen den verschiedenen Hierarchieebenen wechseln. Er entscheidet beispielsweise, ob er die Kennzahlen auf Basis eines Bundeslandes oder detaillierter auf Gemeindebasis ermitteln möchte.

Eine weitere mögliche Operation ist die Pivotierung. Hierbei handelt es sich um eine Rotation des Würfels. Die Werte der Kennzahlen verändern sich hierbei nicht, der Nutzer kann sie aber aus verschiedenen Perspektiven betrachten. Somit wird der Blickwinkel auf die zuvor vielleicht vermeintlich schon bekannten Daten verändert und es können neue Erkenntnisse gewonnen werden. 

Neue Kategorie von analytischen Möglichkeiten für unterschiedlichste Fachbereiche

Mit der Erweiterung um OLAP-Funktionalitäten wird Cadenza um eine neue Kategorie von analytischen Möglichkeiten erweitert, von denen die unterschiedlichsten Fachbereiche profitieren. Kennzahlen, Dimensionen und Indikatoren sind nicht nur im Finanzcontrolling oder Vertrieb im Einsatz. CO2-Emmissionen sind aktuell in aller Munde, aber die Umweltverwaltung arbeitet beispielsweise seit jeher mit umweltorientierten Kennzahlen und Dimensionen, wie Emissionen und Emissionskategorien oder Abfallaufkommen nach unterschiedlichen Abfallarten, um nur zwei von vielen zu nennen. Im Verbraucherschutz werden Kennzahlen zur Lebensmittelsicherheit, im Bereich der Futter- und Tierarzneimittel oder auch im Pflanzenschutz genutzt, für ein besseres Verständnis der aktuellen Situation, aber auch zur Analyse und Planung. Im Gesundheitswesen werden Kennzahlen über Patienten und Behandlungen, aber auch über die Ausbreitung von Krankheiten entwickelt, um Trends zu entdecken oder zu verstehen. Und die Liste kann beliebig fortgeführt werden. Versucht man aus Zahlen und Daten schlau zu werden oder gar Entscheidungen zu unterstützen, dann muss man Analysen oftmals flexibel und ad-hoc durchführen.

Die neue Funktionalität in Cadenza hilft bei der Expedition ins Reich der Daten, den Perspektivwechsel durchzuführen und damit eventuelle Auffälligkeiten, Optimierungspotentiale oder auch neue Chancen zu identifizieren.

Weitere Informationen

  • (1) Codd, E. F./ Codd, S. B./ Salley, C. T.: Providing OLAP (On-Line Analytical Processing to User-Analyst: An IT Mandate, E. F. Codd & Associates, 1993