Extremwerte: Grenzerfahrungen

Manche Ereignisse – wie etwa schwere Naturkatastrophen – sind selten, kommen meist überraschend und sind mit einfachen Methoden kaum kalkulierbar. Es gibt aber raffinierte Ansätze, Wahrscheinlichkeiten selbst für noch nie aufgetretene Situationen abzuleiten.

In unserem Beispiel mit fiktiven Daten nehmen wir an, dass wir zehn Jahre lang kontinuierlich seismographische Messungen durchgeführt und für jeden Tag jeweils die maximale Aktivität festgehalten haben. Der Tag mit der maximalen Aktivität eines ganzen Jahres ist in der folgenden Grafik jeweils grün markiert (bitte klicken Sie auf die Grafik für eine vergrößerte Darstellung!):

Seismographische Messungen

Offensichtlich wurde ein extrem großes Erdbeben mit einer Stärke von mehr als 9 in keinem dieser zehn Jahre beobachtet. Wir sind nun an der Frage interessiert, mit welcher Wahrscheinlichkeit ein solcher Fall im nächsten Jahr eintreten könnte.

Die nahe liegende Variante, einfach den Anteil der Jahre zu nehmen, in denen das seltene Ereignis auftrat, versagt im vorliegenden Fall, da 0 “Erfolge” von 10 zu einem Schätzer 0 führen würden. Auch die Wahrscheinlichkeit, an einem einzelnen Tag ein extrem großes Erdbeben zu beobachten, würde mit 0 geschätzt werden, obwohl hier bereits etwa 3650 Messungen vorliegen.

Was können wir tun, wenn wir uns nicht mit der einfachen Antwort abspeisen lassen wollen, dass keine Gefahr bestehe?

Hier kommt uns nun die Extremwerttheorie in Form der Block-Maxima-Methode zu Hilfe. Der Name der Block-Maxima-Methode rührt daher, dass die ursprünglich täglich gemessenen Daten in Jahr-Blöcke aufgeteilt werden und die jeweiligen Jahresmaxima von Interesse sind.

Verlassen wir für einen Moment das konkrete Erdbebenbeispiel und nehmen an, dass wir n unabhängig und identisch verteilte Zufallszahlen mit bekannter Verteilung haben. Wenn F(x) die Wahrscheinlichkeit ist, dass eine Zufallszahl kleiner oder gleich x ist, dann ist die Wahrscheinlichkeit, dass alle n Zufallszahlen und somit auch das Maximum dieser Zahlen kleiner oder gleich x sind, mit (F(x))^n gegeben. Aus diesem Ausdruck lässt sich durch Ableiten nach x auch die Dichtefunktion für das Maximum gewinnen.

Die folgende Grafik zeigt in der ersten Spalte die Verteilungsfunktion und in der zweiten Spalte die Dichtefunktion des Maximums von jeweils n standardnormalverteilten Zufallszahlen, In der ersten Zeile ist n = 10, dann 100, 1000 und schließlich 10000:

Eigenschaften des Maximums von normalverteilten Zufallszahlen

Es ist nun aus den ersten beiden Spalten abzulesen, dass mit wachsender Stichprobengröße sowohl Verteilungs-, als auch Dichtefunktion des Maximums von n Werten zwar langsam, aber durchaus beharrlich nach rechts wandern. Die Verteilungsfunktion wird dabei immer steiler, die Dichtefunktion immer schmaler.

Aus den Erkenntnissen der Extremwerttheorie ergibt sich nun, dass man diesem Abwandern mit einer linearen Koordinatentransformation z = ax + b entgegenwirken kann, deren Parameter a = a(n) und b = b(n) von der vorliegenden Verteilung und von n abhängen. Die Funktionen werden dabei sozusagen wieder nach links geschoben und in x-Richtung gestreckt.

Erstaunlicherweise strebt eine solchermaßen definierte Verteilungsfunktion G(x) := F(a x + b) bei passender Wahl der Parameter gegen eine Grenzverteilungsfunktion und zwar gegen die der sogenannten Gumbelverteilung. Diese Grenzverteilungs- und die hiervon abgeleitete Grenzdichtefunktion sind in roter Farbe eingezeichnet.

Noch gibt es keinen Grund, verwundert zu sein. Nehmen wir nun einmal anstelle einer Normalverteilung eine Exponentialverteilung. Hier sehen die wandernden Verteilungs- und Dichtefunktionen (Spalten 1 und 2) folgendermaßen aus:

Eigenschaften des Maximums von exponentialverteilten Zufallszahlen

Der Clou liegt nun darin begründet, dass die standardisierten Versionen in den Spalten 3 und 4 im Grenzwert wieder exakt dieselben Funktionen der Gumbelverteilung ergeben. Die Konvergenz gegen die Grenzfunktionen ist hier sogar schneller. Die Berechnung der von n abhängigen Koeffizienten a = a(n) und b = b(n) weicht zwar von derjenigen der Normalverteilung ab, aber das standardisierte Ergebnis ist identisch.

Es lässt sich nun zeigen, dass überhaupt nur drei Verteilungstypen als Grenzverteilungen in Frage kommen – die bereits vorgestellte Gumbelverteilung, die Fréchetverteilung und die Weibullverteilung. Welche Verteilung als Grenzverteilung entsteht, hängt von Eigenschaften der Dichtefunktion der Ausgangsverteilung für große x ab. Die Gleichverteilung, bei der nur auf einem beschränkten Intervall Werte generiert werden können, führt beispielsweise zur Weibullverteilung als Grenzverteilung (genauer gesagt entsteht sogar eine Exponentialverteilung, die ihrerseits aber einen Spezialfall der Weibullverteilung darstellt!).

Es lässt sich nun die verallgemeinerte Extremwertverteilung ableiten, die alle drei möglichen Verteilungstypen als Spezialfälle enthält. Auch die Verteilungsfunktionen, die durch lineare Transformationen aus einer der drei Verteilungen entstehen können, sind darstellbar. Die Formel für die verallgemeinerte Extremwertverteilung (Generalized Extreme-Value Distribution) lautet:

Formel der verallgemeinerten Extremwertverteilung

D. h., falls eine Verteilung zu den Verteilungen gehört, bei denen Transformationen der Verteilungsfunktion des Maximums zu einer standardisierten Grenzverteilung führen, sollte sich die Verteilungsfunktion des Maximums mit dieser Formel bei geeigneter Wahl der drei Parameter gut darstellen lassen.

Der Parameter Gamma zeigt durch das Vorzeichen an, welcher der drei möglichen Typen gewählt wird, z. B. gehört die 0 zur Gumbelverteilung. Mit den anderen beiden Parametern können Lage und Skalierung der Verteilungsfunktion gesteuert werden.

Kehren wir zu unserem Beispiel der Erdbebenstärken zurück. Unsere Stichprobe besteht nun aus den 10 Werten, die jeweils das Maximum eines Jahres darstellen.

Wir haben keine konkreten Annahmen über die Verteilung einer einzelnen Tagesmessung. Hätten wir hier mehr Informationen, könnten wir möglicherweise die gewünschte Anpassung direkt herleiten.

Im günstigsten Fall können wir annehmen, dass alle Tagesmessungen unabhängig sind. Aber selbst dann, wenn Korrelationen aufeinanderfolgender Tage vorliegen sollten, könnte die Anwendung statthaft sein, da wir das n = 365 in unserer Modellanpassung nicht explizit verwenden. Wir berufen uns ja nicht auf die Annahme einer konkreten Verteilung eines Tageswertes, sondern nutzen asymptotische Ergebnisse, die für eine Vielzahl von sich gutmütig verhaltenden Verteilungen zutreffen.

Letztendlich kann nun eine Anpassung der Parameter der verallgemeinerten Extremwertverteilung durchgeführt werden. Die zehn beobachteten Maximalwerte werden durch die empirische Verteilungsfunktion repräsentiert. Die rote Kurve zeigt die Verteilungsfunktion der angepassten Extremwertverteilung:

Angepasste Extremwertverteilung

Diese angepasste Verteilung kann nun benutzt werden, um die Gefahr einzuschätzen, in einem Jahr den Wert von 9 zu überschreiten. Hier ergibt sich eine Wahrscheinlichkeit von 4.1%, ein extrem großes Erdbeben zu erleben.

Da wir die Daten selbst erzeugt haben und somit den Generierungsmechanismus kennen, lässt sich die Wahrscheinlichkeit auch exakt berechnen. Diese beträgt 4.4%, liegt also relativ dicht an unserer Schätzung.

Die geringe Abweichung kann aufgrund der relativ kleinen Anzahl von 10 Jahren noch mit einer glücklichen Fügung zusammenhängen, aber an dieser Stelle verzichten wir auf Abschätzungen der Genauigkeit unserer Vorhersage. Grob gesprochen gilt die Faustregel, dass eine große Anzahl von Beobachtungen pro Block die Existenz einer guten Approximation sichert und eine große Anzahl von Blöcken dafür sorgt, dass man diese gute Approximation auch findet.

Es sollte aber zumindest klar sein, dass unsere Vorhersage, die eine positive Wahrscheinlichkeit für eine Katastrophe vorsieht, der Verkündung einer scheinbar absolut sicheren Lage vorzuziehen ist.

Der genannte Ansatz ist natürlich nicht auf die Erdbebenforschung beschränkt. Vor allem in der Versicherungsbranche sind ähnlich gelagerte Problemstellungen der Predictive Analytics häufig anzutreffen. Beispielsweise kann die Vorgehensweise der Modellierung bei der Abschätzung der Wahrscheinlichkeiten extremer Schäden angewandt werden.

Es gibt darüberhinaus noch die Peaks-over-Threshold-Methode, die nicht nur mit dem Maximum, sondern mit allen Werten über einer hoch gewählten Schwelle arbeitet. Diese Methode sollte aber lieber Thema eines gesonderten Blogbeitrags sein.

Donnerstag, 1. Dezember 2016

Prognosen Weibullverteilung Block Maxima Erdbeben Extreme Value Analysis Extremwerte Extremwertverteilung Fréchetverteilung Gumbelverteilung Predictive Analytics

Veranstaltungs-Tipp

On-Demand-Webinar 29. April 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 7. Mai 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

On-Demand-Webinar 13. Mai 2025 Webinar: Business-Intelligence-Anwendungen mit DeltaMaster Repository verwalten

Das Repository ist die zentrale Komponente zur datenbankgestützten Bereitstellung von DeltaMaster-Anwendungen. Wie Sie hier Benutzergruppen, Rollen, Berechtigungen und Anwendungen verwalten, erfahren [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Forschung Personenverkehr mit Bussen und Bahnen in der DeltaApp

Für den Personenverkehr spielen Busse und Bahnen eine wichtige Rolle. Das Statistische Bundesamt stellt hierzu interessante Daten zur Verfügung [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Bissantz News The BI & Analytics Survey 25: Platz 1 für Bissantz in Selfservice, Mobile BI und zahlreichen weiteren Kriterien

Im BI & Analytics Survey 25 von BARC liegt Bissantz auf Platz eins in den Vergleichsgruppen Selfservice BI, Mobile BI und zahlreichen weiteren [...]

mehr erfahren

Forschung Reisegebiete mit Ankünften und Übernachtungen

Reisegebiete in Deutschland üben sowohl auf inländische als auch auf ausländische Touristen wieder ansteigende Anziehungskraft aus. Wie sieht [...]

mehr erfahren

Vorheriger Artikel

Visualisierung: Raum in der kleinsten Hütte (II)

Nächster Artikel

Visualisierung: Bestens in Form

Extremwerte: Grenzerfahrungen

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.

Nicolas Bissantz

Diagramme im Management