Excel und die Daten(visualisierung)

Jede kennt Excel. Es führt praktisch kein Weg daran vorbei. Für Leute die beginnen sich mit Daten auseinanderzusetzten, sind Tabellenkalkulationsprogramme in der Regel der erste Schritt. Natürlich gibt es eine Vielzahl an Tabellenkalkulationsprogrammen (hier ein kleine Übersicht), aber durch Windows’ Verbreitung ist hier Excel der Platzhirsch und de-facto-Standard. Dass es für Excel auch viele gute Gründe gibt sei unbestritten. Excel kann nämlich sehr viel. Viel mehr als der Laie vermuten würde. Und auch erfahrene Nutzerinnen lernen regelmäßig was neues.

Aber Excel hat auch eine große Schwachstelle: die Datenvisualisierung. Und das in zweifacher Hinsicht.

Einerseits ist die gebotene Auswahl an Visualisierungen, also der Diagrammtypen, mangelhaft. Nachdem Excel wahrscheinlich das „Datenstandardtool“ für 90% aller Nutzer ist, prägt diese Excel-Auswahl unser Verständnis von Datenvisualisierung. Das Problem dabei ist, dass die gebotenen Diagrammtypen zum Großteil unbrauchbar sind. Zur Erklärung hole ich ein wenig aus.

Wie funktioniert visuelle Kommunikation?

Betrachtet man die von unseren Sinnesorganen verarbeiteten Datenmengen, so ist der menschliche Sehsinn der „stärkste“ unserer Sinne. Aber er ist nicht für alle Aufgaben die wir ihm stellen gleich gut geeigent. Evolutionär bedingt haben sich manche Eigenschaften stärker ausgeprägt als andere. So war es wahrscheinlich wichtiger zuerst zu erkennen, dass etwas mit rasender Geschwindigkeit auf uns zu kommt, als zu identifizieren ob das nun ein Löwe oder ein Puma ist.

Um aber nicht zu tief in das Thema der visuellen Wahrnehmung (visual perception) abzutauchen, sei an dieser Stelle auf Stephen Fews Buch „Show Me the Numbers“ verwiesen. Dieser beschreibt in Kapitel 5 einerseits den Prozess der Informationsverarbeitung (vom Auge bis zum Gehirn). Zusätzlich beschäftigt er sich aber auch damit, welche Gestalt-Prinzipien wir nützen können um (Daten-) Visualisierungen möglichst effektiv zu gestalten. Wer sich das Buch nicht Ausborgen kann oder leisten mag, die kann sich einen kurzen Überblick in Abschnitt 3.2.2 meiner Dissertation verschaffen (Englisch).

Fakt ist, dass wir zum Beispiel in der Lage sind Längen gut miteinander Vergleichen zu können, nicht aber Winkel.
Dazu ein Beispiel: Sortiere die Tortenecken der Größe nach!

visuelle Wahrnehmung
Welches Torteneck ist größer?
Bei den Balken eine Frage von Sekundenbruchteilen.

Und, wie lange hat’s gedauert? War die Antwort richtig? Ohne die Balken links zu konsultieren? Bei den Balken bedarf es zur Beantwortung keiner Anstrengung. Das pre-attentive Processing, also die unterbewusste Vorselektion der Information, übernimmt diese Aufgabe für uns.

Und was hat das mit Excel zu tun?

Viel.

Schaut man sich die von Excel angebotenen Diagrammtypen an, so bekommt man angeboten:

  1. Säulendiagramme
  2. Liniendiagramme
  3. Tortendiagramme
  4. Balkendiagramme (liegende Säulen)
  5. Flächen/Bereichsdiagramme
  6. sonstige (lapidar zusammengefasst)

Bereits die dritte angebotene Variante sind Tortengrafiken. Nun kann man darüber streiten ob es nicht doch auch Fälle gibt in denen eine Torte akzeptal ist. Es mag sein, dass dies ab & zu möglich ist, wenn metaphorisch vom „großen Stück am Kuchen“ gesprochen wird. In der Regel gehören Torten aber ins Kaffeehaus, nicht auf den Bildschirm.

Na gut, aber reicht das aus, Excel zu verdammen?

Nein, außer man hasst Tortendiagramme wie die Pest. Aber leider sind auch die anderen Grafiktypen bei näherem Betrachten alles andere als visuell korrekt. Bei der Zusammenstellung der Diagrammtypen hat Microsoft offentsichtlich an Effekten reingepackt was geht, weil es geht. Betrachtet man die Diagramme für univariate Daten (also solche, wo pro Messpunkt nur ein Wert vorhanden ist), so bleiben im Großen die obigen fünf Kategorien über. In diesen befinden sich 53 Diagramm-Subtypen, von denen nur 19 nicht 3D sind. Der überwiegende Teil (65%) der Grafiken nutzt 3D.

Es kann manchmal helfen Daten in 3D zu visualisieren. Aber definitiv nicht univariate, also eindimensionale. Denn alleine durch die Projektion von 3D auf 2D (Monitor, Beamer, Papier können nur 2D) wird die „3D-Darstellung“ verzerrt. Und somit verfälscht. Wie etwa in diesem Beispiel:

3D Effekt - zu welchem Preis?
Verzerrende 3D Darstellung gegenüber klassischer 2D.

Betrachtet man die 3D-Darstellung flüchtig, so scheinen die roten Kegel A und B beide unter 10 zu sein. Sind sie jedoch nicht. Selbes gilt für die roten D, E und F, welche mit 21, 20 und 20 nicht kleiner 20 sind. Der Vergleich von blau und rot fällt bei diesen dreien auch alles andere als leicht – wie generell alle Vergleiche zwischen mehreren Kegeln.

Aber wie gesagt: meine Kritik an Excel als Visualisierungstool umfasst zwei Punkte.

Schlechte Standards

Der zweite ist die „Out of the Box“ Darstellung von Diagrammen. Genauer: die standardmäßige Formatierung der Grafiken. Als Beispiel eine einfache Liniengrafik die fünf Datenreihen vergleicht. Sei eine davon für uns von speziellem Interesse (Hausnummer das „Set 2“ ). Excel betrachtet alle Datenreihen als gleich uns stellt sie ohne Rücksicht auf Verluste beliebig dar.

Excels Standardformatierung
5 Datensets bestehend aus Zufallszahlen, autoformatiert von Excel

Das Diagramm ist überladen und unübersichtlich. Edward Tufte würde von zuviel Non-Data-Ink sprechen. Also irrelevanten Bildelementen welche das wesentliche verstellen. Mit nur ein wenig manuellem Säuberungsaufwand, lässt aber sich auch mit Excel ansehliches produzieren. In weniger als 5 Minuten entsteht aus der obigen Grafik diese…

manuell nachgebesserte Formatierung
5 Datensets bestehend aus Zufallszahlen, Formatierung manuell nachgebessert

Das Auge braucht nicht zur Legende und wieder zurück pendeln um die Datensätze zu identifizieren. Auf den ersten Blick wird ersichtlich welche der Reihen die relevante ist. Durch das Weglassen der Gitterlinien, das Ausgrauen der Achsen und Beschriftung und die Reduktion der Achsbeschriftung wird zudem die „Non-Data-Ink“ reduziert.

Wie weit man mit so einem manuellen Tuning kommen kann, zeigt eindrucksvoll dieses großartige Beispiel auf The Why-Axis. Wobei das zugegebener Maßen deutlich über simples Tuning hinaus geht. Es zeigt aber was möglich ist, wenn man weiß was man tut.

Weiß was du tust.

Und damit kann ich eigentlich das Geschriebene auch schon zusammenfassen. Excel mag der Standard im Bereich Tabellenkalkulation sein. Perfekt geeignet für Out-Of-The-Box Visualisierungen ist es nicht. Das mag daran liegen, dass es in Excel „zu einfach“ ist Visualisierungen zu produzieren. Quasi die Kalaschnikow der Visualisierung – einfach zu bedienen und trotzdem viel Bumms. Aber es liegt auch daran, dass Out-Of-The-Box Grafiken immer Einschränkungen haben werden, denn jede Datengeschichte braucht eine abgestimmte Erzählform.

In Excel ist jedenfalls kein Vorwissen, keine Überlegung notwendig um „schnell mal ein Diagramm“ zu machen. Und Excel hat auch keinen Assistenten der dabei hilft die Aufgabe zu strukturieren, den Erzählstrang zu definieren und dann eine passende Visualisierung auszuwählen und zu formatieren. Ohne diese theoretischen Überlegungen ist die entstehende Grafik aber mit ziemlicher Sicherheit sub-optimal; um nicht zu sagen kontraproduktiv bis unbrauchbar.

Mit ein wenig Überlegung und händischer Anpassung lässt sich aber auch mit Excel eine tolle Geschichte mit überzeugenden Visualisierungen zaubern (siehe „The Why Axis“ Beispiel). Das größte Problem von Excel bleibt, dass es so viele unbrauchbare Diagrammtypen als Standardgrafiken anbietet. Vor allem ohne Hintergrundwissen wird bei so einem Werkzeug dann schnell der optische Effekt wichtiger als die Information die transportiert werden soll(te).

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.