Coronakrise, Datenkrise, Datenvisualisierungskrise

Die Datenbasis ist instabil

Das erste, was mir zur Frage „Datenvisualisierungen und Corona“ einfällt: Die Visualisierung ist nicht das Problem – sondern die Daten. Die Datenbasis rund um die Coronakrise ist mehr als instabil – für den normalen Bürger ist es selbst bei überdurchschnittlichem Interesse extrem schwierig, sich ein objektives Bild zu machen. Dies ist auch der Grund, warum die Anhänger jeder These – vom erweiterten Schnupfen bis zur tödlichen Pest – irgendwo Daten finden, die ihre These scheinbar stützen.

Ich hoffe, die Experten in Ministerien, Gesundheitsämtern und Kliniken haben bessere Daten zur Verfügung, die nicht veröffentlicht werden. Die öffentlich zugänglichen Daten – das Dashboard meiner Wahl ist übrigens covidly.com, eine tolle private Initiative – sind einfach unvollständig und vor allem im Zeitverlauf instabil. Beispiel: Die täglichen Sterbestatistiken werden in vielen Ländern nach Meldedatum, nicht nach Sterbedatum veröffentlicht – in Schweden beispielsweise wird scheinbar am Wochenende kaum gestorben. Damit sind kurzfrequente Veränderungen von Wachstumsraten etc. nicht sinnvoll analysierbar.

Fehlende Relevanz der Kennzahlen

Das zweite was mir zu dem Thema einfällt ist ein Aspekt, den man auch oft in klassischen Dashboards in Unternehmen antrifft: Fehlende Relevanz. Die Auslastung (und zu befürchtende potentielle Überlast) des Gesundheitsbereiches, insbesondere der Intensivmedizin, war einer der wesentlichsten Argumente des Lockdowns. Die dafür erforderliche Kennzahl „%Auslastung Intensivbetten“ fand und findet man in der medialen Berichterstattung – und auch den mir bekannten Dashboards – fast nie.

Der Fokus liegt dafür auf der Zahl der Infizierten, eine Kennzahl, die auf Grund unterschiedlicher Rahmenbedingungen (Anzahl Tests, Art der Auswahl der zu Testenden, Testmethodik) meiner Ansicht nach in keiner Weise zum Vergleich der Länder taugt. Der Umstand, dass laut offiziellen Daten momentan die Sterberate der Infizierten in den USA bei ca. 5% liegt und in Belgien bei über 15% wird wahrscheinlich nicht dem überlegenen amerikanischen Gesundheitswesen zuzuschreiben sein, sondern eben der mangelnden Vergleichbarkeit des Zählers.

Auch innerhalb von Ländern hat sich über die Wochen nicht nur die Verfügbarkeit von Tests, sondern auch das Auswahlverfahren der zu Testenden geändert: Jede Interpretation der Daten entlang der Zeit wird damit schwierig.

Polizeilich erfasste Gewalttaten in US-Großstädten
Abbildung 1: Polizeilich erfasste Gewalttaten in US-Großstädten- Entwicklung innerhalb von 28 Tagen*, Quelle: Spiegel Online, 26.4. 2020
Coronakrise, Datenkrise, Datenvisualisierungskrise
Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.

Meine Kritik

Und damit zur eigentlichen Frage der Datenvisualisierung: Die Grafiken sind im Durchschnitt gar nicht so schlecht, Gurus wie Rolf Hichert haben in den letzten Jahren auch in deutschen Zeitungen und Magazinen Spuren hinterlassen. Und trotzdem bleibt genug zu kritisieren. Ich nehme das Beispiel der „Polizeilich erfassten Gewalttaten in US-Großstädten“ aus dem Spiegel (siehe Abbildung 1) – so sehr ich diesen redaktionell schätze, bei den Grafiken hat die Redaktion noch viel Potential nach oben:

  • Die Überschrift passt nicht zur Aussage: Lese ich die Grafik und den begleitenden Text mit Ruhe, dann geht es in der Grafik um die VERÄNDERUNG der Gewalttaten in amerikanischen Großstädten durch den Lockdown. Die Überschrift suggeriert eine ALLGEMEINE Statistik zur Verbrechenshäufigkeit, und in genau diese Falle bin ich zunächst auch getappt. Eine bessere Überschrift hätte gelautet: „Veränderungen der Zahl der Gewalttaten in US-Großstädten seit dem Lockdown“, denn das ist die Botschaft, die die Grafik vermitteln soll.
  • Die Auswahl der Städte erscheint zufällig – oder Böswilligkeit unterstellend manipulativ: Es werden nicht die größten Städte der USA gezeigt – aus den Top 6 nach Einwohnern fehlen mit Houston und Washington bereits zwei, sondern eine scheinbar zufällige Auswahl. Die Frage ist warum: Gab es nur für diese Daten oder will der Autor bewusst nur Städte auswählen, die seine Wunschbotschaft unterstützen? Später beim Erstellen der alternativen Visualisierung ergibt sich dann die Auflösung: Offensichtlich wurden die 11 Großstädte ausgewählt, die den größten Rückgang bei Gewalttaten aufweisen.
  • Die Farbcodierung der einzelnen Verbrechensarten ist zu ähnlich: Drei unterschiedliche Rottöne sind für das Auge kaum zu unterscheiden: Am Beispiel New York, bei dem die einzelnen Kugeln nahe beieinander liegen, zeigt sich die Schwierigkeit der Decodierung für den Leser.
  • Die Kugelgrafik hat ein systemimmanentes Problem: Was, wenn zwei oder mehr Werte zufällig exakt ident sind und damit übereinanderliegen? Ein wunderbares Beispiel findet sich in der Grafik des Spiegel – Ratespiel: Unter welcher der vier angezeigten Kugeln liegt die Entwicklung der Vergewaltigungen in Chicago, also die orange Kugel?
  • Die Kennzahl „Gewalttaten“ bildet die Summe der vier anderen Kategorien Mord, Vergewaltigung, Raub und Überfall ab, ohne optisch irgendwie von diesen unterscheidbar zu sein, erscheint also auf den ersten Blick als eine weitere gleichwertige Verbrechenskategorie. Die Schlussfolgerung, dass es sich dabei um die Summe (oder den Mittelwert, auch dies bleibt offen) der vier anderen Kategorien handeln muss, bleibt dem Leser überlassen.
  • Die fehlenden absoluten Zahlen machen die Bewertung der Daten schwierig: Nashville hat eine Steigerung der Morde um über 250% zu verzeichnen, in Unkenntnis der Basisdaten: Dies kann ein einzelner Amokläufer gewesen sein, der zufällig während der 28 Tage Beobachtungszeitraum zugeschlagen hat. Die völlig unterschiedlichen Entwicklungen der einzelnen Städte, bei denen es in einigen einen deutlichen Rückgang der Morde um 50% gegeben hat, in anderen eine Steigerung von 100% oder mehr lassen vermuten, dass die Basisdaten für eine relevante Aussage einfach nicht ausreichen, oder anders gesagt: Hier wird vermutlich Zufall abgebildet – in anderen Verbrechenskategorien lässt das Bild auf eine größere Fallzahl und damit bessere Aussagen schließen.

Entwurf eines besseren Vorschlags

Abbildung 2: Stefan Sexl schlägt eine alternative Visualisierung der Daten vor.
Abbildung 2: Stefan Sexl schlägt eine alternative Visualisierung der Daten vor.

In diesem Vorschlag wird die Information bereits deutlich besser kommuniziert – aber es geht sicher noch besser. Gerne nehmen wir Ihre Verbesserungsvorschläge entgegen.

„Chart Doktor“ Evelyn Münster hat die Challenge bereits angenommen und analysiert die Grafik von Spiegel Online in ihrem YouTube Video:

Gefällt Ihnen dieser Beitrag?
Wir haben noch viel mehr davon! Schließen Sie sich über 25.775 Data & Analytics Professionals an, um der Konkurrenz einen Schritt voraus zu bleiben.
Kalender Icon corp outline
DATA.PEOPLE.EVERYWHERE. – Join us for the Data Party of the year at DATA festival in Munich, June 13-14th!