Liebe Datenanalysten,
seit über 5 Jahren ist das Blog von Bella, unserem Bürohund, ein Quell der Inspiration für alle, die nach Beispielen für den richtigen Umgang mit Daten und für gute Visualisierung suchen. Weit über 100 Artikel sind bereits erschienen. Meist sind es Darstellungen aus den Medien, an denen Bella ihre Beobachtungen macht, aus denen sie ihre Schlussfolgerungen zieht und Regeln ableitet. Diese Beispiele sind echt – und haben es deshalb immer wieder in sich. Eine gefällige Darstellung ist schnell erzeugt, wenn man sich auch die Daten dafür zurechtgelegt hat. Echte Daten sind weniger zahm. Ausreißer, Lücken, Sprünge, Niveauunterschiede machen uns die Arbeit schwer.
In diesen DeltaMaster clicks! nehmen wir Sie mit in unsere Blog-Redaktion und zeigen, womit wir Bella helfen, wenn sie einen neuen Fall entdeckt hat. Natürlich arbeiten wir dabei mit DeltaMaster, bereiten Daten auf, analysieren sie, probieren Varianten aus und tun, was nötig ist, damit wir andere verständlich informieren können. Und immer wieder freuen wir uns, dass die Methoden und Funktionen von DeltaMaster so verzahnt sind, dass wir uns frei in den Daten umschauen können. Dieses Mal gehen wir damit ein häufiges Problem an: die Darstellung mehrerer Zeitreihen. Zugleich ist unser Themenrundgang über den Umgang mit Zeitreihen ein Beispiel, wie Sie sich auch in unbekanntem Terrain auf die zahlreichen Werkzeuge von DeltaMaster verlassen können. Kommen Sie mit!
Herzliche Grüße
Ihr Team von Bissantz & Company
Schauen wir uns das Liniendiagramm aus der Welt vom 27. November 2011 genauer an. Es zeigt, wie sich die Beliebtheit von Autofarben im Laufe der letzten 20 Jahre verändert hat. Sieben Farben sind dargestellt, jeweils als prozentualer Anteil an allen Neuzulassungen im betreffenden Jahr. Wie wirkt die Grafik auf Sie?
„Ganz schön spaghetti“, schreibt Bella in ihrem Blog. Das Durcheinander der Linien ist schwer zu lesen und schwer zu verstehen, für die Zahlenwerte ist kein Platz, die Beschriftungen geistern darin herum. Solche Datenkonstellationen finden wir auch im Controlling immer wieder: Mehrere zeitliche Entwicklungen sind zu berichten und zu analysieren, seien es Marktforschungsdaten (wie hier), Umsatzzahlen aus verschiedenen Regionen oder der EBIT der Konzerngesellschaften.
Wir wollen das Beispiel aus Bellas Blog aufgreifen und diskutieren, wie man zeitlichen Entwicklungen mit den Standardwerkzeugen von DeltaMaster zu Leibe rückt.
Vorarbeiten: Daten beschaffen und würfeln
Die Daten für die Grafik auf der Titelseite bekommt man beim Kraftfahrt-Bundesamt (www.kba.de). Wir haben sie in eine Excel-Datei kopiert und daraus mit dem DeltaMaster TableWizard und dem DeltaMaster CubeWizard eine lokale Cube-Datei erzeugt (siehe DeltaMaster clicks! 04/2010).
Das Analysemodell besteht aus zwei Dimensionen (den Jahren und den Farben) und einem Analysewert (Anteil). Diese Modellbestandteile erzeugen wir über die entsprechenden Funktionen im Kontextmenü der Spaltenköpfe. Als Controller lassen wir bei der Würfelerzeugung eine Hilfsdimension „Periodenansicht“ anlegen – mit Sicherheit werden uns irgendwann die kurzfristigen Abweichungen interessieren, etwa wenn wir frische Daten bekommen haben, und dann benötigen wir Zeitanalyseelemente (siehe DeltaMaster clicks! 08/2007). Auf die Daten in der Excel-Tabelle könnten wir mit DeltaMaster auch direkt zugreifen, ohne vorher einen Würfel zu erzeugen. Das ginge ein wenig schneller, aber wir müssten dann auf berechnete Elemente verzichten. Wenn Sie unsere Beispiele nachvollziehen möchten, kommen Sie hier aber ohne berechnete Elemente aus.
Nach diesem Schritt liegen die Daten multidimensional vor und wir können mit allen Funktionen von DeltaMaster damit arbeiten.
Erste Sichtkontrolle: alle Daten in der Pivottabelle
Auf der Basis des soeben erstellten Würfels legen wir eine neue Analysesitzung an und stellen die Daten zunächst als Pivottabelle dar. Das reicht für eine Sichtkontrolle: Alle 140 Datenwerte sind „drin“.
Um vergleichen zu können, müssen wir jedoch weiter gehen – Entwicklungen, Größenunterschiede, Abstände, Verhältnisse, Muster sehen wir so noch nicht.
Grafische Tabelle
Über das Kontextmenü der Datenzellen blenden wir Balken ein und wir transponieren die Achsen (Menü Ändern). Jetzt stehen die Jahre in den Zeilen und die Farben auf den Spalten. Das Verlaufsmuster einer jeden Farbe ist gut zu erkennen und wir müssen auf keinen Einzelwert verzichten. Schade, dass die Zeit nun von oben nach unten verläuft statt von links nach rechts, wie es sein sollte. Mit Säulen könnten wir auch arbeiten, dann wird die Tabelle weniger kompakt. Probieren Sie es aus.
Pivotgrafik
Die Pivottabelle ist mit einem Mausklick in eine Grafik überführt (Menü Ansicht im Fenster Bericht, Analyse oder Cockpit). Das Umschalten zwischen Tabelle und Grafik ist in allen Stufen möglich, vom Reader bis zum Miner. So können Sie als Grafik gespeicherte Berichte immer auch als Tabelle anzeigen, zum Beispiel um die exakten Werte abzulesen, die in der Grafik womöglich nicht enthalten sind. Zum Bearbeiten der Grafik ist der Modus Pivotizer, Analyzer oder Miner erforderlich.
Das Kraftfahrt-Bundesamt zeichnet die Daten in Pressemitteilungen bisweilen als Stapeldiagramm. Das haben wir in DeltaMaster nachgestellt. Aus den Spaghetti in der Zeitung wird dann Lasagne. Die einzelnen Segmente lassen sich nicht gut vergleichen, weil sie auf unterschiedlicher Höhe anfangen. Delikat ist zudem: Wie wir eine Entwicklung wahrnehmen, hängt davon ab, wo sie im Stapel liegt. Bella hat in ihrem Blog gezeigt, dass dieselbe Reihe einmal wie ein Anstieg und einmal wie ein Rückgang wirkt, je nachdem, auf welche andere Reihe man sie stapelt (www.bella-beraet.de/linien-kumuliert-man-nicht).
Wenn wir den Diagrammtyp ändern und ein Liniendiagramm zeichnen, wird unser Nachbau wie in der Zeitung – alles spaghetti. Es sind zu viele Linien, als dass wir sie mit dem Auge gut verfolgen könnten. Dass sich die Linien immer wieder kreuzen, macht die Angelegenheit nicht einfacher. Immerhin, die Interaktivität am Bildschirm kann die Lektüre etwas erleichtern: Wenn Sie mit der Maus auf eine Linie zeigen, werden die übrigen Linien abgeblendet und die selektierte wird betont. Anstelle aller Linien sieht man dann praktisch nur noch eine – ein Gedanke, den wir weiter unten wieder aufgreifen werden. Die Zahlenwerte fehlen hier. Über das Kontextmenü könnte man sie einblenden. Dann wird aber aus Spaghetti Buchstabensuppe. Probieren Sie es aus: Machen Sie die Grafik größer. Alles wird wieder lesbar und lässt sich intensiv studieren. Und wir merken dabei: Die Skalierung vermag uns nur die großen Farben überzeugend zu zeigen. Skalierungsvarianten gibt es auch in der Pivotgrafik; prädestiniert dafür ist aber das Modul Zeitreihenanalyse.
Zeitreihenanalyse
Die Zeitreihenanalyse im Modus Miner erzeugt eine ähnliche Darstellung wie in der vorherigen Abbildung. (Auch im Analyzer lassen sich Zeitreihenanalysen erstellen, jedoch nur für eine Datenreihe.) Anders als in der Pivotgrafik steht bei der Zeitreihenanalyse nicht die Grafik im Vordergrund, sondern es geht vor allem um Funktionen, die man aus betriebswirtschaftlicher Sicht braucht, um Zeitreihendaten zu analysieren.
Beispielsweise kann man über das Kontextmenü Trendgeraden einblenden; diese wiederum lassen sich trennen, etwa wenn sich zu einem bestimmten Zeitpunkt die äußeren Umstände so geändert haben, dass „vorher“ und „nachher“ nicht vergleichbar sind. Kumulierte Werte können auch ohne eine spezielle Dimension im Analysemodell dargestellt werden. Bei absoluten Werten werden negative Vorzeichen umgekehrt, was den betragsmäßigen Vergleich von Wertreihen erleichtert, die mit unterschiedlichen Vorzeichen erfasst sind. Die Schrittweite ist hilfreich, wenn beispielsweise Daten auf Tagesebene vorliegen, aber der Wochentag kein Kriterium im Datenmodell ist: Mit einer Schrittweite von 7 stehen dann trotzdem etwa nur die Montage nebeneinander. Diese und andere Funktionen sind dem Analyseverfahren Zeitreihenanalyse zugeordnet und nicht mit Grafikoptionen in Pivotgrafiken zu verwechseln.
Für unsere Aufgabe erweisen sich die Eigenschaften (Kontextmenü oder Menü Ich möchte) als hilfreich. Hier lässt sich einstellen, dass die absolute und/oder relative Differenz zwischen Anfangs- und Endwert sowie zwischen Minimum und Maximum ausgewiesen werden soll.
Diese Angaben erscheinen oberhalb des Diagramms. Sie geben wertvolle Hinweise auf die Spannweite der Werte. Die wiederum ist ein wichtiger Indikator, ob bei der Skalierung Gefahr droht. In unserem Beispiel ist das so: Der Marktanteil der Farbe Braun hat von 1991 bis 2010 um 500 Prozent zugenommen! Das ist bei weitem die größte Steigerung. Aus dem Diagramm kann man das aber beim besten Willen nicht ablesen: Weil sich Braun insgesamt auf einem niedrigen Niveau bewegt, sind auch die enormen prozentualen Veränderungen nicht sichtbar. Reihen mit kleinen Werten werden von den Reihen mit großen Werten regelrecht „flach gedrückt“. Das ist ein ganz typischer Effekt, wenn man versucht, Zeitreihen unterschiedlicher Größenordnung in einem Diagramm darzustellen.
Abhilfe schafft die logarithmische Skala (Kontextmenü). Sie macht die relativen Unterschiede vergleichbar: Der gleiche Höhenunterschied steht für den gleichen Wertunterschied in Prozent. Mehr über die logarithmische Skalierung und ihre Vorzüge entnehmen Sie den DeltaMaster clicks! 07/2010. Die Lesbarkeit des Diagramms leidet aber immer noch daran, dass es so viele Linien sind.
Small Multiples
Deshalb sollten wir die Spaghetti loswerden. Im Modus Miner-Expert gibt es dafür einen Menübefehl: Umfasst die Analyse mehr als eine Reihe, bietet DeltaMaster an, die Darstellung in Small Multiples umzuwandeln (Menü Ich möchte).
Als Small Multiple wird für jede Farbe eine eigene, kleine Zeitreihendarstellung erzeugt. Diese fasst DeltaMaster zu einem Bericht zusammen. Hier haben wir uns für die globale Skalierung entschieden. Die einzelnen Verläufe sind klar zu erkennen.
Allerdings haben wir noch das Problem mit der Skalierung: Die starke Zunahme des Markanteils von Braun geht unter.
Das ändert sich, wenn wir die Small Multiples aus einer Zeitreihenanalyse erzeugen, die logarithmisch skaliert ist. In der Abbildung rechts gilt ebenfalls eine globale Skalierung, das heißt, alle Kacheln verwenden die gleiche Achseneinteilung. Diese ist aber logarithmisch – und schon erkennt kann, wie viel Bewegung es bei Braun gab und wie wenig bei Blau. Ähnliche Ergebnisse erzielt man mit der vergleichbaren Skalierung, einer Option in Small Multiples. Sie bewirkt, dass die prozentuale Spannweite in allen Kacheln übereinstimmt, und stellt darüber die Vergleichbarkeit her.
Haben wir mit dieser Darstellung erreicht, was wir wollten? Die Verlaufsmuster kann man jetzt gut erkennen und miteinander vergleichen. Wie aber steht es um die absolute Bedeutung? Das starke Wachstum von Braun kann ein wenig darüber hinwegtäuschen, dass der Anteil dieser Farbe mit nicht einmal 4 Prozent immer noch sehr niedrig ist.
Sparklines
Für den nächsten Schritt wollen wir daher Größenvergleich und Zeitvergleich trennen. Zu diesem Zweck kommen wir auf die Grafischen Tabellen zurück. Eingangs hatten wir für jedes Jahr den Marktanteil mit Balken visualisiert. Das tun wir jetzt nur noch für das letzte Jahr, für 2010.
Dessen Werte werden in Form von Balken visualisiert. Die zeitliche Entwicklung haben wir in Sparklines abgebildet, die zellweise skaliert sind. Dadurch wird die Zeilenhöhe in jeder Zeile voll ausgenutzt und die Sparkline differenziert maximal. Der Bericht ist sehr kompakt und ansprechend. Wegen der Deutungspriorität sind die Sparkline-Säulen linear skaliert (siehe DeltaMaster clicks! 12/2011). Der Mustererkennung tut das keinen Abbruch. Wir sehen: Der Anteil von Braun ist mit 3,6 Prozent gering. Bemerkenswert ist das dennoch, weil Braun lange überhaupt keine Rolle spielte und erst in den letzten Jahren die Werte steigen.
Minima und Maxima als Zahlenwerte geben weitere Orientierung. Für Grün ist das dringend nötig: Hier ist der aktuelle Markanteil von 1,4 Prozent so weit vom Maximum entfernt, dass die rein visuelle Deutung an ihre Grenzen stößt. Minimum und Maximum haben wir als benutzerdefinierte Analysewerte in DeltaMaster angelegt.
Fazit
Wir sehen mal wieder: Die Analyse von Zeitreihen ist ein tückisches Geschäft. In Form von Liniendiagrammen kommen Zeitreihen daher, als könnte man leicht ablesen, wie sie steigen, stagnieren oder fallen. Dem ist nicht so. So weit Liniendiagramme verbreitet sind, so oft werden sie vorschnell interpretiert. Gut, dass Sie mit DeltaMaster alles Rüstzeug zur Hand haben, um sie zu nutzen, wo sie taugen, und ihnen zu trotzen, wo sie täuschen.