Ein Boxplot visualisiert die Verteilung von Daten durch Darstellung der fünf Maße Minimum, unteres Quartil, Median, oberes Quartil und Maximum auf kompakte und schnell erfassbare Weise. Bei sehr großen Stichproben kann sich das Maximum als Störenfried erweisen. Wir erklären, wann und warum dies passieren kann.
In Extremwerte: Rekordjagd hatten wir einen Blick auf Zeitreihen geworfen und Eigenschaften neu auftretender Maxima im bisherigen Zeitverlauf untersucht. Stellen wir uns nun vor, dass eine beständig wachsende Stichprobe vorliegt, deren Verteilung bei bestimmten Stichprobengrößen mittels eines Boxplots visualisiert werden soll. Die fünf darzustellenden Punkte sind Minimum, unteres Quartil, Median, oberes Quartil und eben das Maximum.
Die folgende Grafik zeigt die Boxplots für Stichprobengrößen n=10 und n=100.
Wächst die Stichprobengröße an, scheinen sich alle fünf Größen des Boxplots auf ein Level einzupendeln, mit einer Ausnahme: Das Maximum macht ab und zu einen Sprung nach oben und stört langsam, aber sicher die Skalierung. Der Bereich zwischen unterem und oberem Quartil wird in der Grafik immer schmaler dargestellt.
Unsere Stichprobe besteht aus unabhängig und identisch exponentialverteilten Zufallszahlen. Diese sind nie negativ, können aber – wenn auch mit geringer Wahrscheinlichkeit – beliebig große Werte annehmen.
In einer Simulation erzeugen wir jeweils eine Stichprobe exponentialverteilter Zufallszahlen für eine gegebene Anzahl n (z. B. n=100) und berechnen jeweils die fünf Maße für diese Stichprobe. Der gesamte Vorgang wird 1000-mal wiederholt, sodass wir einen Eindruck der Verteilung der fünf Maße erhalten.
Werfen wir zunächst einen Blick auf eine Größe, die sich unauffällig verhält – das obere Quartil.
Die Grafik zeigt, dass die berechneten oberen Stichprobenquartile mit wachsender Stichprobengröße immer weniger schwanken und sich allmählich auf einen festen Wert einschießen. Dieser Wert lässt sich aus der verwendeten Exponentialverteilung berechnen und beträgt ungefähr 0.602. Es lässt sich sogar zeigen, dass das Stichprobenquartil näherungsweise normalverteilt ist. Für n=100 und n=1000 sind diese approximativen Normalverteilungsdichten in der Grafik eingezeichnet.
Der Stichprobenmedian wird sich auf einen Wert ~ 0.303 einpendeln, das untere Quartil geht gegen ~ 0.125. Da die Exponentialverteilung nur nichtnegative Werte annimmt, strebt das Minimum gegen 0.
Werfen wir nun einen Blick auf den Störenfried Maximum:
Wie ersichtlich ist, verschieben sich die Histogramme der Maxima der Stichproben mit wachsender Stichprobengröße immer weiter nach rechts. Es lässt sich eine approximative Verteilung berechnen, deren theoretische Herleitung an dieser Stelle etwas zu weit führen würde. Die Form der Dichtefunktion bleibt sogar gleich, nur der Lageparameter verändert sich. Beim gewählten Parameter der Exponentialverteilung verschiebt sich die approximative Dichtefunktion bei Verzehnfachung der Stichprobengröße um genau eine Einheit nach rechts.
Was wir hier festhalten wollen, ist, dass es bei steigender Stichprobengröße für exponentialverteilte Zufallszahlen normal ist, dass sich das beobachtete Maximum immer weiter rechts befinden wird. Es handelt sich hier somit nicht um Ausreißer im Sinne, dass Datenschmutz oder Fehlmessungen vorliegen, sondern um das erwartete Verhalten.
Bei der Exponentialverteilung gibt es keine obere Schranke, aber auch, wenn es eine Schranke gäbe, könnte diese sehr groß sein (z. B. bei Betrachtung von Versicherungsschäden), sodass auch hier das Maximum bei größer werdenden Stichproben erst einmal tendenziell wächst.
Werden somit zwei verschiedene Boxplots verglichen, sollten auch die Stichprobengrößen mitberücksichtigt werden, wenn die Maxima betrachtet werden.
Bei Verteilungen, die betragsmäßig beliebig große negative Werte annehmen können, gelten analoge Überlegungen auch für das Minimum.
In DeltaMaster bieten wir eine Option an, die für die Anzeige automatisch ein Intervall generiert, das sich mehr auf den Interquartilsabstand zwischen Q25 und Q75 konzentriert. Bei den Daten aus der anfangs genannten Tabelle ergibt sich dann die folgende Darstellung:
Den Lesern, die sich weiter in die Thematik einarbeiten wollen, seien Lehrbücher über Extremwerttheorie (bzw. Extreme Value Theory) empfohlen.