Um einen Eindruck der Verteilung von beobachteten Werten zu erhalten, wird oft ein Histogramm verwendet. Trotz der einfach anmutenden Vorgehensweise können je nach vorgenommener Intervalleinteilung recht unterschiedliche, ja sogar sich widersprechende Histogramme entstehen. Es existiert aber eine alternative Darstellungsform, die nicht von der Parametrierung abhängt!
Im Prinzip ist die Histogrammdarstellung ein bewährtes und gerne verwendetes Verfahren und das Ergebnis sieht etwa bei dem folgenden Beispiel auf den ersten Blick durchaus brauchbar aus (klicken Sie auf die Grafik für eine vergrößerte Darstellung!):
Aber aufgepasst: Bei einer leichten Änderung der Intervalleinteilung (dies ist die automatisch gewählte des eingesetzten Programmes bei diesen Daten!) kann das Histogramm einen deutlich anderen Eindruck vermitteln, obwohl doch im konkreten Beispiel die recht hohe Gesamtanzahl von 200 Werten zur Verfügung stand. Auf einmal ist der Bereich zwischen 9 und 10 verdächtig leer, obwohl doch hier gerade eben noch der Spitzenwert gemessen wurde:
Hier sind die Probleme dadurch entstanden, dass die zugrunde liegenden Werte gerundet vorlagen, mit den Häufigkeiten wie in der folgenden Tabelle dargestellt:
Wert | 8 | 9 | 10 | 11 | 12 | 13 | 14 |
Häufigkeit | 14 | 40 | 80 | 49 | 16 | 0 | 1 |
it dem Wissen, dass Werte gerundet sind, sollten nur ganzzahlige Intervallbreiten wie 1 oder 2 verwendet werden. Im ersten Histogramm ist dies erfüllt, obwohl der Eindruck immer noch verfälscht ist, da in einem Intervall nur Werte am rechten Rand auftreten. Für eine optimale Darstellung sollte das gesamte Histogramm um 0.5 nach rechts verschoben werden. Das zweite Histogramm hingegen besitzt Intervalllängen von 0.7, sodass bspw. das Intervall von 9.2 bis 9.9 prinzipiell gar keine Beobachtungen enthalten kann.
Natürlich könnte im Vorfeld automatisiert geprüft werden, ob ganzzahlige Werte vorliegen.
Betrachten wir deshalb ein zweites Beispiel, bei welchem stetige Daten in sehr großer Zahl vorliegen und das Argument, dass Histogramme mit beliebig wählbarer Intervallbreite nicht für ganzzahlige Daten gedacht sind, nicht zieht. Die folgenden drei Histogramme gehören zum gleichen Datensatz der Stichprobengröße 10.000 und sind nur durch unterschiedliche Intervalleinteilungen entstanden. Während das Histogramm mit der feineren Einteilung die tatsächliche Situation, dass eine zweigipflige, symmetrische Verteilung vorliegt, angemessen wiedergibt, lässt die erste gröbere Darstellung ein Plateau mit nur leichter Delle und die zweite, leicht seitwärts verschobene Einteilung einen soliden Anstieg vermuten.
Wir hatten in Histogramme: Fein justieren bereits einen automatisierten Ansatz vorgestellt, der eine gegebene feine Intervalleinteilung in Abhängigkeit von der Stichprobengröße optimiert.
Ungeachtet eines offensichtlich vorhandenen Optimierungspotentials der Intervalleinteilung gibt es aber auch eine alternative Darstellung, bei der nicht über Anzahl und Lage der Intervalle entschieden werden muss, und die prinzipiell sogar mehr Information als das Histogramm enthält.
Mittels der empirischen Verteilungsfunktion, die für jeden x-Wert den Anteil der Beobachtungen angibt, die kleiner oder gleich dem x-Wert sind, werden Ergebnisse unbeeinflusst von irgendwelchen Parametereinstellungen unverfälscht wiedergegeben. Für unser zuerst genanntes Beispiel sieht diese dann folgendermaßen aus:
Mathematisch nicht ganz korrekt, aber optisch einprägsamer lassen sich die Teilstücke auch verbinden:
Liegt ein weiterer Datensatz vor, lassen sich die empirischen Verteilungsfunktionen der beiden Datensätze leicht vergleichen; hier liegen die Daten von Datensatz B tendenziell weiter rechts.
Beispielsweise sind 67% aller Daten für Datensatz A kleiner oder gleich 10, aber nur 7% der Daten von Datensatz B. Genauso lassen sich schnell Ähnlichkeiten einer empirischen Verteilung zu einer festen Verteilung erkennen, wie hier zur theoretischen Verteilungsfunktion einer Normalverteilung N(10,1):
Für unser zweites Beispiel ergibt sich folgende empirische Verteilungsfunktion, bei der die Stufen aufgrund der hohen Anzahl von Daten nicht mehr erkennbar sind.
Die beiden Gipfel sind hier zwar vorhanden, drängen sich dem Betrachter aber nicht zwingend auf, da sie sich in dieser Darstellung als steilere Abschnitte präsentieren, die durch einen flacheren Bereich getrennt sind. Sie werden deutlicher sichtbar, wenn die Verteilungsfunktion einer Normalverteilung mit gleicher Erwartung und Varianz gegenübergestellt wird.
Dass die Normalverteilung nur einen lokalen Gipfel besitzt, der gleichzeitig auch der globale ist, lässt sich in dieser Darstellung daran erkennen, dass die Verteilungsfunktion zunächst immer steiler wird, um dann nach dem Passieren des Maximums der Dichte immer flacher zu werden.
Die einzelne empirische Verteilungsfunktion kann zwar nicht ganz so schnell wie ein Histogramm erfasst werden, leidet aber nicht unter der Abhängigkeit der Wahl der Intervalleinteilung. Ob sich zwei Verteilungen ähnlich sind, kann hingegen leicht erkannt werden. Für diesen Zweck ist die empirische Verteilungsfunktion im Vergleich zum Histogramm besser geeignet.
Wir gelangen zum Fazit, dass sich die empirische Verteilungsfunktion zumindest als Ergänzung zum Histogramm eine Chance verdient hat.