Die Macht der Daten: Patientendaten auswerten und datengestützte Entscheidungen treffen

Wie Institutionen aus dem Gesundheitswesen mit disy Cadenza visuell Auffälligkeiten und Muster in Patientendaten entdecken und daraus Maßnahmen ableiten

Patientendaten Datenstory Teaser

Die Auswertung von Patientendaten kann wichtige Erkenntnisse für beispielsweise Gesundheitsbehörden oder Krankenkassen bringen. Treten bestimmte Diagnosen in bestimmten Altersgruppen öfter auf? Welche Diagnosen werden am häufigsten gestellt? Gibt es bei der räumlichen Verteilung in Deutschland Auffälligkeiten? Gibt es unterschiedliche Diagnosen zwischen Männern und Frauen? Und wie entwickeln sie sich im Zeitverlauf? All diese und noch viele weitere Fragen können mit dem richtigen Datenanalyse-Tool wie disy Cadenza ganz einfach und schnell beantwortet werden.

In dieser Datenstory nehmen wir ein beispielhaftes Szenario aus dem Gesundheitswesen unter die Lupe: Mitarbeitende einer Krankenkasse sollen eine Kampagne zur Prävention von Krankenhausaufenthalten starten. Um valide Aussagen zu erhalten, müssen dafür zunächst die Patientendaten zu Krankenhauspatienten der letzten Jahre ausgewertet werden. Das Ziel ist, eventuell vorhandene Auffälligkeiten und Muster hinsichtlich der gestellten Diagnosen zu identifizieren.

Die verwendeten Daten stammen von DESTATIS. Die Daten enthalten folgende Informationen zu Krankenhauspatienten:

  • Diagnose
  • Jahr
  • Altersgruppe
  • Geschlecht
  • Bundesland

Sofern nicht explizit auf ein Jahr gefiltert wurde, handelt es sich bei der Anzahl von Patienten immer um die Gesamtsumme aus den Untersuchungsjahren (2000, 2005, 2010, 2015 und 2019).

Patientendaten in der Datenanalyse-Software disy Cadenza in der Tabelle mit mehrfarbiger Hervorhebung auswerten

Abb. 1.: Patientendaten in der Tabelle auswerten

Patientendaten auf der grünen Wiese

Wir starten dafür in disy Cadenza mit einem leeren Arbeitsblatt: Der Datenmanager von Cadenza, welcher über das neue Arbeitsblatt erreichbar ist, ermöglicht den Zugriff auf verschiedene Patientendaten. Die ersten Fragen, die wir uns stellen, sind: Welche Diagnosen wurden häufig gestellt? Und wie viele Patienten bekamen diese Diagnose?

Per Drag-and-drop lassen sich die Daten auf die Arbeitsfläche ziehen. Daraus wird direkt eine aggregierte Tabelle erstellt. Für eine bessere Übersicht können die Daten noch absteigend sortiert und mehrfarbig hervorgehoben, also klassifiziert, werden. Mit wenigen Klicks haben wir also schon unsere erste aufschlussreiche Tabelle erstellt.

Wir starten mit einer erfreulichen Erkenntnis: In allen Untersuchungsjahren zusammen war die häufigste Diagnose „Lebendgeborene nach dem Geburtsort“. Zu sehen ist die entstandene Tabelle in Abbildung 1.

Das Diagramm zeigt den „Babybauch“

Wir durchforsten weiter die Daten: Im nächsten Schritt betrachten wir die Diagnosen nach Altersklassen. Die Visualisierung im Säulendiagramm liefert uns auf den ersten Blick viele Erkenntnisse (Abbildung 2, links). Wir erkennen, dass die Anzahl der Krankenhauspatienten mit dem Alter zunimmt und dann aufgrund der höheren Sterberate im Alter rapide sinkt. Auffallend ist jedoch, dass zwischen dem 20. und 40. Lebensjahr ein zwischenzeitlicher Anstieg zu erkennen ist. Erinnern wir uns daran, dass wir mithilfe von Abbildung 1 erkannt haben, dass die häufigste Diagnose „Lebendgeborene nach dem Geburtsort“ ist. Somit liegt nahe, dass dieser Anstieg Schwangerschaften und Geburten zuzuschreiben sein muss. Ergänzen wir die Dimension „Geschlecht“ zu unserem Diagramm, erhalten wir ein gruppiertes Säulendiagramm (Abbildung 2, rechts). Orangefarbene Balken stehen für die Anzahl weiblicher Patienten, blaue für männliche. Es ist zu erkennen, dass dieser Anstieg tatsächlich weiblichen Patienten zuzuschreiben ist.

Patientendaten in der Datenanalyse-Software disy Cadenza im Säulendiagramm auswerten

Abb. 2.: Patientendaten im Säulendiagramm nach Altersklasse (links) und Geschlecht (rechts) auswerten

Patientendaten in der Datenanalyse-Software disy Cadenza in der Pivottabelle auswerten

Abb. 3.: Patientendaten in der Pivottabelle nach Diagnosekapitel und Geschlecht auswerten

Diese Vermutung soll nun nochmals gefestigt werden. Dafür ziehen wir die Kennzahl „Anzahl Patienten“ und die beiden Dimensionen „Diagnosekapitel“ und „Geschlecht“ in eine Tabelle. Zur besseren Übersichtlichkeit wird die Tabelle pivotiert.

Abbildung 3 zeigt nun sehr schön und deutlich, dass die Vermutung richtig war. Bei „Schwangerschaft, Geburt und Wochenbett“ sind fast 5.000.000 Frauen aufgelistet. Die Differenz zwischen männlichen und weiblichen Patienten liegt bei ungefähr diesen fünf Millionen Patienten.

Aus diesem Grund schließen wir die Daten, die die Diagnose „Schwangerschaft, Geburt und Wochenbett“ enthalten, bei der weiteren Analyse aus. Das erreichen wir ganz einfach über eine Filterung. Durch Klick auf das gewünschte Diagnosekapitel in der Tabelle kann man die Filterung einstellen und im Analysekontext dann über „Werte ausschließen“ aus der Analyse herausnehmen.

Patientendaten in der Datenanalyse-Software disy Cadenza im Säulendiagramm auswerten

Abb. 4.: Patientendaten ohne Daten zu „Schwangerschaft, Geburt und Wochenbett“

Mehr Männer als Frauen zwischen 40 und 60 Jahren im Krankenhaus

Wir sehen in unserem Säulendiagramm nun, dass die Anzahl der Patientendaten von Männern und Frauen viel ausgeglichener ist.

Was jetzt aber auffällt: Bis zum Alter von 75 Jahren kommen nahezu durchgängig mehr Männer als Frauen pro Altersklasse ins Krankenhaus. Vor allem zwischen 40 und 60 Jahren sind starke Diskrepanzen zu erkennen. Ab 75 Jahren kommt es dann zu einem deutlichen Umschwung. Das ist aufgrund der höheren Lebenserwartung von Frauen nicht sehr verwunderlich. In unserer Datenanalyse fokussieren wir uns im Folgenden auf das Alter von 40 bis 60 Jahren.

Alarmierende Top-Diagnose für Männer zwischen 40 und 60 Jahren

Patientendaten in der Datenanalyse-Software disy Cadenza mithilfe der Top-N-Funktion auswerten

Abb. 5.: Top 10 Diagnosen von männlichen Krankenhauspatienten zwischen 40 und 60 Jahren

Wir tauchen noch tiefer in unsere Daten ein und erstellen dazu ein weiteres Arbeitsblatt. Die Attribute „Diagnose“ und „Anzahl Patienten“ werden in die Karte gezogen und die Visualisierung auf „männlich“ und die Altersgruppen „40 bis < 45“, „45 bis < 50“, „50 bis < 55“ und „55 bis < 60“ gefiltert.

Die Ergebnistabelle ist nun zwar auf unsere Interessen gefiltert, dennoch visuell nicht leicht zugänglich. Da für die Kampagne Auffälligkeiten herausgestellt werden sollen, macht es Sinn, die Daten auf das Wesentliche zu reduzieren. Das kann leicht mittels Top-N-Ranking erreicht werden: Wir schränken die Diagnosen auf die größten zehn nach der Anzahl der Patienten ein und erhalten das in Abbildung 5 zu sehende Ergebnis. Mittels Sortierung und mehrfarbiger Einfärbung der Kennzahlen erhalten wir einen noch besseren Überblick über die Daten.

Das Ergebnis ist alarmierend: Auf Platz 1 liegen mit großem Abstand „Psychische und Verhaltensstörungen durch Alkohol“. Auf Platz 2 folgt der Leistenbruch, dicht gefolgt von chronischen Erkrankungen der Herzkranzgefäße.

Der Norden ist stark betroffen

Patientendaten in der Datenanalyse-Software disy Cadenza mithilfe von Karten auswerten

Abb. 6.: Die Diagnose „Psychische und Verhaltensstörungen durch Alkohol“ bei Männern zwischen 40 und 60 Jahren, verteilt auf die Bundesländer (absolut und pro 100.000 Einwohner)

Wir möchten nun untersuchen, wie sich die Diagnose „Psychische und Verhaltensstörungen durch Alkohol“ auf die Bundesländer sowohl absolut als auch pro 100.000 Einwohner verteilt. Dazu erstellen wir ein weiteres Arbeitsblatt mit zwei Karten:

  • Absolute Anzahl der Diagnosen pro Bundesland (Abbildung 6, links)
  • Anzahl der Diagnosen pro Bundesland pro 100.000 Einwohner (Abbildung 6, rechts)

Da wir die Arbeitsmappe später mit anderen Kolleg:innen teilen möchten, definieren wir noch einen Drill-through auf dieses Dashboard. Ein Drill-through ist eine Navigationsmöglichkeit zwischen Datensichten. Dies geschieht durch die Verlinkung von einer Auswertung zu einer anderen über eine gemeinsame Eigenschaft (Dimension).

Datenanalysten gelangen so leichtgewichtig und barrierefrei an Detailinformationen. In unserem Beispiel erfolgt ein Drill-through von der Tabelle mit Informationen zu Diagnosen von Männern zwischen 40 und 60 Jahren zu einer Kartendarstellung über die gemeinsame Dimension „Diagnose“.

Die Erkenntnisse springen uns durch die farbliche Klassifizierung der Bundesländer direkt ins Auge:

  • Die Diagnose „Psychische und Verhaltensstörungen durch Alkohol“ wird bei Männern zwischen 40 und 60 Jahren absolut gesehen am häufigsten in NRW gestellt. Das könnte auch an der hohen Einwohnerdichte liegen.
  • Relativ – pro 100.000 Einwohner – gesehen ist der Nordosten, vor allem aber Mecklenburg-Vorpommern deutlich an der Spitze.

Als Gegenmaßnahme wäre es nun sinnvoll, Präventionskampagnen zu starten. In den stark betroffenen Bundesländern könnten beispielsweise umfangreichere Maßnahmen, wie beispielsweise Aufklärungskampagnen, der Aufbau von Suchtberatungsstellen, umfangreiche Aufklärungsgespräche oder diverse Bonusprogramme ergriffen werden.

Außerdem wäre es möglich und sinnvoll, weitere Analysen unter Einbeziehung zusätzlicher Daten, wie Wohnsituation, Bildung usw. durchzuführen.

Deutliche Diagnoseunterschiede bei Männern und Frauen zwischen 40 und 60 Jahren

Es bietet sich außerdem ein Vergleich zwischen Männern und Frauen an (Abbildung 7), also zurück zu unserer Top-10-Tabelle. Wir duplizieren diese und nutzen den Datensichtfilter, um das Geschlecht auf „weiblich“ zu filtern.

Wir sehen, dass die Diagnose „Psychische und Verhaltensstörungen durch Alkohol“ – mit zwei Drittel geringerer Patientenanzahl als bei Männern – nur noch auf Platz 4 liegt. Platz 1 bis 3 belegen „Bösartige Neubildungen der Brustdrüse“, „Leiomyom des Uterus“ (gutartige Tumore) und „Cholelithiasis“ (Gallensteine).

: Patientendaten in der Datenanalyse-Software disy Cadenza mithilfe der Top-N-Funktion vergleichen und auswerten

Abb. 7.: Vergleich der Top 10 Diagnosen von männlichen und weiblichen Krankenhauspatienten zwischen 40 und 60 Jahren

„Diagnosetrends“ über die Jahre

Jetzt ist es interessant, ob sich die Anzahl dieser Diagnosen über die Jahre verändert hat. Dazu duplizieren wir beide Tabellen in ein neues Arbeitsblatt. Im neuen Arbeitsblatt ändern wir dann ganz einfach – mit nur einem Klick – den Visualisierungstyp zu „Multiliniendiagramm“. Außerdem wechseln wir für eine bessere Übersicht noch die Einstellung Top 10 auf Top 5. Nun ist die zahlenmäßige zeitliche Entwicklung die Top 5 Diagnosen pro Jahr zu sehen.

Bei den Top 5 Diagnosen der Männer zwischen 40 und 60 (Abbildung 8, links) erkennen wir Folgendes:

  • Die „Psychischen und Verhaltensstörungen durch Alkohol“ lagen schon seit dem Jahr 2000 auf Platz 1. Die Anzahl stieg bis zum Jahr 2010 stetig. Seit 2010 sinkt diese Diagnose wieder; bis 2019 um 30.000 Patienten. Trotzdem bleibt diese Diagnose die unangefochtene Nummer 1 bei männlichen Patienten.
  • Im Jahr 2000 hatte die chronische ischämische Herzkrankheit ein kurzes „Hoch“ als zweithäufigste Diagnose. In den Folgejahren taucht diese Diagnose aber nicht mehr unter den Top 5 auf.
  • Die Anzahl anderer Diagnosen bleibt über die Zeit nahezu gleich. In unserem Diagramm sind nur geringe Schwankungen zu erkennen.

Bei den Top 5 Diagnosen der Frauen zwischen 40 und 60 (Abbildung 8, rechts) erkennen wir:

  • Beim Vergleich der Jahre 2000 und 2005 fällt auf, dass sich die häufigste Diagnose, nämlich „Bösartige Neubildungen der Brustdrüse“, nahezu halbiert hat. Wahrscheinlich gab es hierfür eine erfolgreiche Gegenmaßnahme in der Vergangenheit. Dieser Trend besteht – in abgeschwächter Form – bis heute. Bedeutet in Zahlen: Im Jahr 2000 bekamen noch über 160.000 Frauen diese Diagnose. 2019 waren es nur noch knapp über 50.000. Leider stehen „Bösartige Neubildungen der Brustdrüse“ trotzdem immer noch an erster Stelle, wenn es um Diagnosen bei Frauen zwischen 40 und 60 Jahren geht.
  • „Leiomyom des Uterus“ (gutartige Tumore des Uterus) ist zwar immer noch eine häufige Diagnose, erlebt aber einen kontinuierlichen Rückgang seit 2000.
  • Die „Psychischen und Verhaltensstörungen durch Alkohol“ tauchen erst im Jahr 2005 in den Top 5 auf, halten sich seitdem aber konstant.
  • „Varizen der unteren Extremitäten“, also Krampfadern, waren in den Jahren 2000 und 2005 sehr häufig. Ab 2010 sind sie aber nicht mehr in den Top 5.
Entwicklung der Patientendaten in der Datenanalyse-Software disy Cadenza mithilfe der Top-N-Funktion im Multiliniendiagramm vergleichen und auswerten

Abb. 8.: Zeitliche Entwicklung Top 5 Diagnosen von Männern (links) und Frauen (rechts) zwischen 40 und 60 Jahren im Multiliniendiagramm

Für eine engere inhaltliche Verknüpfung haben wir noch einen weiteren Drill-through zum Multiliniendiagramm erstellt (Abbildung 9).

Drill-through in der Datenanalyse-Software disy Cadenza
Abb. 9: Drill-through von der Tabelle zum Multiliniendiagramm
Finale Dashboards zu den Patientendaten in der Datenanalyse-Software disy Cadenza
Abb. 10: Finale Arbeitsblätter zum Teilen mit Kolleg:*innen

Unsere Datenanalyse hat uns in kurzer Zeit schon zu sehr vielen Erkenntnissen verholfen. Nachdem wir unsere Auswertung also fertig erstellt haben, stellen wir unser Erkenntnis-Dashboard anderen Kolleg*innen zur Verfügung (zu sehen in Abbildung 10). Damit haben sie nun eine Grundlage, um eine Kampagne zur Prävention von Krankenhausaufenthalten zu konzipieren und einzuleiten.

Die hier gezeigten Analyseansätze und Ergebnisse sind nur einige von vielen Möglichkeiten, wie man Daten mit disy Cadenza auswerten kann. Es warten noch viele andere Erkenntnisse darauf, von disy Cadenza ausgewertet zu werden… bleiben Sie dabei!