6. Mai 2020

Coronakrise, Datenkrise, Datenvisualisierungskrise

Die Datenbasis ist instabil

Das erste, was mir zur Frage „Datenvisualisierungen und Corona“ einfällt: Die Visualisierung ist nicht das Problem – sondern die Daten. Die Datenbasis rund um die Coronakrise ist mehr als instabil – für den normalen Bürger ist es selbst bei überdurchschnittlichem Interesse extrem schwierig, sich ein objektives Bild zu machen. Dies ist auch der Grund, warum die Anhänger jeder These – vom erweiterten Schnupfen bis zur tödlichen Pest – irgendwo Daten finden, die ihre These scheinbar stützen.

Ich hoffe, die Experten in Ministerien, Gesundheitsämtern und Kliniken haben bessere Daten zur Verfügung, die nicht veröffentlicht werden. Die öffentlich zugänglichen Daten – das Dashboard meiner Wahl ist übrigens covidly.com, eine tolle private Initiative – sind einfach unvollständig und vor allem im Zeitverlauf instabil. Beispiel: Die täglichen Sterbestatistiken werden in vielen Ländern nach Meldedatum, nicht nach Sterbedatum veröffentlicht – in Schweden beispielsweise wird scheinbar am Wochenende kaum gestorben. Damit sind kurzfrequente Veränderungen von Wachstumsraten etc. nicht sinnvoll analysierbar.

Fehlende Relevanz der Kennzahlen

Das zweite was mir zu dem Thema einfällt ist ein Aspekt, den man auch oft in klassischen Dashboards in Unternehmen antrifft: Fehlende Relevanz. Die Auslastung (und zu befürchtende potentielle Überlast) des Gesundheitsbereiches, insbesondere der Intensivmedizin, war einer der wesentlichsten Argumente des Lockdowns. Die dafür erforderliche Kennzahl „%Auslastung Intensivbetten“ fand und findet man in der medialen Berichterstattung – und auch den mir bekannten Dashboards – fast nie.

Der Fokus liegt dafür auf der Zahl der Infizierten, eine Kennzahl, die auf Grund unterschiedlicher Rahmenbedingungen (Anzahl Tests, Art der Auswahl der zu Testenden, Testmethodik) meiner Ansicht nach in keiner Weise zum Vergleich der Länder taugt. Der Umstand, dass laut offiziellen Daten momentan die Sterberate der Infizierten in den USA bei ca. 5% liegt und in Belgien bei über 15% wird wahrscheinlich nicht dem überlegenen amerikanischen Gesundheitswesen zuzuschreiben sein, sondern eben der mangelnden Vergleichbarkeit des Zählers.

Auch innerhalb von Ländern hat sich über die Wochen nicht nur die Verfügbarkeit von Tests, sondern auch das Auswahlverfahren der zu Testenden geändert: Jede Interpretation der Daten entlang der Zeit wird damit schwierig.

Abbildung 1: Polizeilich erfasste Gewalttaten in US-Großstädten- Entwicklung innerhalb von 28 Tagen*, Quelle: Spiegel Online, 26.4. 2020

Gefällt Ihnen dieser Beitrag?

Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Meine Kritik

Und damit zur eigentlichen Frage der Datenvisualisierung: Die Grafiken sind im Durchschnitt gar nicht so schlecht, Gurus wie Rolf Hichert haben in den letzten Jahren auch in deutschen Zeitungen und Magazinen Spuren hinterlassen. Und trotzdem bleibt genug zu kritisieren. Ich nehme das Beispiel der „Polizeilich erfassten Gewalttaten in US-Großstädten“ aus dem Spiegel (siehe Abbildung 1) – so sehr ich diesen redaktionell schätze, bei den Grafiken hat die Redaktion noch viel Potential nach oben:

Die Überschrift passt nicht zur Aussage: Lese ich die Grafik und den begleitenden Text mit Ruhe, dann geht es in der Grafik um die VERÄNDERUNG der Gewalttaten in amerikanischen Großstädten durch den Lockdown. Die Überschrift suggeriert eine ALLGEMEINE Statistik zur Verbrechenshäufigkeit, und in genau diese Falle bin ich zunächst auch getappt. Eine bessere Überschrift hätte gelautet: „Veränderungen der Zahl der Gewalttaten in US-Großstädten seit dem Lockdown“, denn das ist die Botschaft, die die Grafik vermitteln soll.
Die Auswahl der Städte erscheint zufällig – oder Böswilligkeit unterstellend manipulativ: Es werden nicht die größten Städte der USA gezeigt – aus den Top 6 nach Einwohnern fehlen mit Houston und Washington bereits zwei, sondern eine scheinbar zufällige Auswahl. Die Frage ist warum: Gab es nur für diese Daten oder will der Autor bewusst nur Städte auswählen, die seine Wunschbotschaft unterstützen? Später beim Erstellen der alternativen Visualisierung ergibt sich dann die Auflösung: Offensichtlich wurden die 11 Großstädte ausgewählt, die den größten Rückgang bei Gewalttaten aufweisen.
Die Farbcodierung der einzelnen Verbrechensarten ist zu ähnlich: Drei unterschiedliche Rottöne sind für das Auge kaum zu unterscheiden: Am Beispiel New York, bei dem die einzelnen Kugeln nahe beieinander liegen, zeigt sich die Schwierigkeit der Decodierung für den Leser.
Die Kugelgrafik hat ein systemimmanentes Problem: Was, wenn zwei oder mehr Werte zufällig exakt ident sind und damit übereinanderliegen? Ein wunderbares Beispiel findet sich in der Grafik des Spiegel – Ratespiel: Unter welcher der vier angezeigten Kugeln liegt die Entwicklung der Vergewaltigungen in Chicago, also die orange Kugel?
Die Kennzahl „Gewalttaten“ bildet die Summe der vier anderen Kategorien Mord, Vergewaltigung, Raub und Überfall ab, ohne optisch irgendwie von diesen unterscheidbar zu sein, erscheint also auf den ersten Blick als eine weitere gleichwertige Verbrechenskategorie. Die Schlussfolgerung, dass es sich dabei um die Summe (oder den Mittelwert, auch dies bleibt offen) der vier anderen Kategorien handeln muss, bleibt dem Leser überlassen.
Die fehlenden absoluten Zahlen machen die Bewertung der Daten schwierig: Nashville hat eine Steigerung der Morde um über 250% zu verzeichnen, in Unkenntnis der Basisdaten: Dies kann ein einzelner Amokläufer gewesen sein, der zufällig während der 28 Tage Beobachtungszeitraum zugeschlagen hat. Die völlig unterschiedlichen Entwicklungen der einzelnen Städte, bei denen es in einigen einen deutlichen Rückgang der Morde um 50% gegeben hat, in anderen eine Steigerung von 100% oder mehr lassen vermuten, dass die Basisdaten für eine relevante Aussage einfach nicht ausreichen, oder anders gesagt: Hier wird vermutlich Zufall abgebildet – in anderen Verbrechenskategorien lässt das Bild auf eine größere Fallzahl und damit bessere Aussagen schließen.

Entwurf eines besseren Vorschlags

Abbildung 2: Stefan Sexl schlägt eine alternative Visualisierung der Daten vor.

In diesem Vorschlag wird die Information bereits deutlich besser kommuniziert – aber es geht sicher noch besser. Gerne nehmen wir Ihre Verbesserungsvorschläge entgegen.

„Chart Doktor“ Evelyn Münster hat die Challenge bereits angenommen und analysiert die Grafik von Spiegel Online in ihrem YouTube Video:

Gefällt Ihnen dieser Beitrag?

Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Weitere Inhalte entdecken

Artikel

6. Dezember 2024

Business im Mittelpunkt: die Produktstrategie der SAP hat einen klaren Nordstern

Artikel

29. November 2024

Generative AI: Evolution oder Revolution in BI & Analytics?

Infografik

27. November 2024

Infografik: BARC Data, BI & Analytics Trend Monitor 2025

Artikel

4. Oktober 2024

Enterprise BI & Analytics: Ein reifer Markt trifft auf die GenAI Disruptionswelle

Artikel

6. August 2024

Business Intelligence Trends 2024: Was sie wissen müssen

Score

24. Juli 2024

BARC Score: Enterprise BI & Analytics Platforms 2024

Artikel

4. Juli 2024

Die wenigsten Unternehmen haben ein Framework für den Umgang mit technischen Schulden (technical debts)

Artikel

18. Juni 2024

„Its All About Data“ – und deren Schutz

Artikel

28. Mai 2024

Auch IBM ist im AI-Zeitalter angekommen – aber anders

Artikel

3. Mai 2024

Die 5 Phasen der Softwareauswahl

Infografik

28. März 2024

Infografik: The Future of BI & Analytics – Adopting Generative AI for Analytics

Artikel

26. Februar 2024

Die Top10 BARC+ Inhalte 2023

Ein Beitrag von:

Stefan Sexl

BARC Fellow

Stefan Sexl ist als Fellow mit den Schwerpunkten CPM, BI und Reporting bei BARC tätig. Er bringt 30 Jahre Industrieerfahrung bei führenden Anbietern wie MIS AG, pmOne oder Tagetik ein und berät sowohl Hersteller bei der Marketing-, Vertriebs- und Produktstrategie wie auch Endkunden bei der Auswahl und Einführung von Lösungen.

Ein besonderer Schwerpunkt ist dabei der Markt für CPM und Group Accounting Lösungen wie Planung, Konsolidierung, ESG, Account Reconciliation und weitere Komponenten.

Coronakrise, Datenkrise, Datenvisualisierungskrise

Die Datenbasis ist instabil

Fehlende Relevanz der Kennzahlen

Meine Kritik

Entwurf eines besseren Vorschlags

Weitere Inhalte entdecken

Business im Mittelpunkt: die Produktstrategie der SAP hat einen klaren Nordstern

Generative AI: Evolution oder Revolution in BI & Analytics?

Infografik: BARC Data, BI & Analytics Trend Monitor 2025

Enterprise BI & Analytics: Ein reifer Markt trifft auf die GenAI Disruptionswelle

Business Intelligence Trends 2024: Was sie wissen müssen

BARC Score: Enterprise BI & Analytics Platforms 2024

Die wenigsten Unternehmen haben ein Framework für den Umgang mit technischen Schulden (technical debts)

„Its All About Data“ – und deren Schutz

Auch IBM ist im AI-Zeitalter angekommen – aber anders

Die 5 Phasen der Softwareauswahl

Infografik: The Future of BI & Analytics – Adopting Generative AI for Analytics

Die Top10 BARC+ Inhalte 2023

Ein Beitrag von:

Bereit für das datengetriebene Unternehmen von morgen?

Dann lassen Sie es uns gemeinsam zum Leben erwecken