Zeitmustererkennung: Wenn das Niveau steigt

Oft verhalten sich Zeitreihen für eine Weile relativ stabil und schwanken um einen konstanten Wert, um dann auf ein neues Niveau zu steigen oder zu sinken. Unter gewissen Annahmen können diese Niveauänderungen von einem Algorithmus selbstständig erkannt und automatisch Zeiträume gleichen Niveaus generiert werden.

Wir hatten bereits in Zeitmustererkennung: Segmentierung von Niveauänderungen in Zeitreihen einen Algorithmus vorgestellt, der eine einfache Zeitreihe mit einer Beobachtung pro Zeitpunkt segmentiert. Dort musste allerdings die Anzahl der Segmente vorgegeben werden.

Um zu verstehen, welche Information fehlt, um auch auf die Vorgabe der Anzahl der Segmente verzichten zu können, betrachten wir eine einfache Zeitreihe, die aus sechs Werten besteht:

Eine simple Zeitreihe mit sechs Beobachtungen

Es sieht so aus, als ob nach drei Beobachtungen ein Sprung stattgefunden hat. Doch immer der Reihe nach …

Ein mögliches passendes Zeitreihenmodell ist

y(t) = M(t) + e(t)

Der zu einem Zeitpunkt t beobachtete Zeitreihenwert y(t) wird dargestellt als Summe aus dem wahren Wert M(t), der uns interessiert, aber leider unbekannt ist, und einem Fehler e(t). Von diesem Fehler nimmt man an, dass er um den Wert 0 mit einer normalerweise ebenfalls unbekannten Varianz schwankt.

Wären der Fehler und somit auch die Varianz zu jedem Zeitpunkt immer 0, könnte man anhand der Beobachtungen mit absoluter Sicherheit entscheiden, ob aufeinanderfolgende Werte M(t) und M(t+1) auf einem Niveau liegen oder nicht. Wären in unserem obigen Beispiel die Werte ohne Fehler, so gäbe es nicht nur nur zwischen dem dritten und viertem Wert einen Sprung, sondern auch bspw. einen kleineren zwischen dem zweiten und dem dritten Wert. Konsequenterweise unterscheiden wir zwischen der Tatsache, dass sich Werte unterscheiden und dem Betrag der Abweichung. Bei einer angenommenen Varianz von 0 hat sich das Niveau M(t) zwischen t=2 und t=3 sicher geändert, aber eben nur um einen winzigen Betrag.

Wir möchten nun nicht wissen, ob sich der Wert y(t) verändert hat – das sehen und messen wir – sondern, ob es vorteilhafter ist anzunehmen, dass sich M(t) verändert hat oder nicht. Ein Mittelwert, der über mehrere Zeitpunkte eines Intervalls gebildet wird, ist stabiler; andererseits wird möglicherweise ein Bias, ein systematischer Fehler generiert, wenn die zusammengelegten Werte M(t) in diesem Intervall voneinander abweichen. Die Varianz des Fehlers ist hier die entscheidende Größe, um den Effekt des Zusammenlegens beurteilen zu können.

Liegt nun wie oben jedoch nur eine Beobachtung pro Zeitpunkt vor, kann ohne weitere Annahmen nicht beurteilt werden, wie sich der beobachtete Wert y(t) auf den theoretischen Wert M(t) und den Fehler e(t) aufteilt und somit kann auch die Varianz nicht vernünftig geschätzt werden.

Ohne zusätzliche Annahmen gelangt man nun somit nicht zu einer befriedigenden Schätzung der Fehlervarianz. Welche Möglichkeiten bleiben? Manchmal hilft ein parametrisches Modell für M(t), z.B. eine angepasste Gerade, das auch bei nur einer Beobachtung pro Zeitpunkt die Schätzung der Varianz ermöglicht. Bei unserer Annahme konstanter Werte auf einer unbekannten Anzahl von Intervallen mit variablen Grenzen ergeben sich jedoch bei der üblichen Minimierung der Fehlerquadratsumme pathologische Lösungen, da eine Einteilung mit nur einem Zeitpunkt pro Intervall immer zu einem Gesamtfehlerwert von 0 führt.

Am einfachsten wäre es sicher, den Wert der Varianz vom Anwender festlegen zu lassen. Die Möglichkeit, die wir hier nun beschreiben möchten, ist datengetrieben und geht davon aus, dass der beobachtete Wert selbst ein Mittelwert aus mehreren unabhängigen Wiederholungen ist. Es könnte sich beispielsweise um die Benzinpreise einer zufälligen Auswahl von Tankstellen handeln und uns interessiert der Durchschnittspreis.

10 Wiederholungen pro Zeitpunkt, zusammen mit dem Mittelwert

Die Wiederholungen erlauben nun eine Schätzung der Varianz und diese liefert wiederum die Grundlage für unseren Algorithmus zu entscheiden, ob eine Zusammenlegung von Intervallen die erwartete Stabilität der Darstellung erhöhen wird.

In der vorliegenden Variante nimmt der Algorithmus eine gleichbleibende Größenordnung der Streuung im Zeitverlauf an. Er verwendet Methoden der Modellauswahl und ermittelt die global optimale Aufteilung in Segmente. Für eine flotte Berechnung werden Ansätze der Dynamischen Programmierung eingesetzt.

Für unser Beispiel sehen wir die plausible Einteilung in zwei Dreiergruppen, die auch unser Algorithmus findet. Die gewonnene Stabilität durch Mittelwertbildung über drei Zeitpunkte ist höher einzuschätzen als der Informationsverlust durch Glättung möglicherweise leicht verschiedener Werte M(t).

Automatisch gefundene Einteilung in zwei Dreiergruppen

In der Grafik werden Mittelwerte (blau) +/- Standardabweichungen (grün) der gefundenen Segmente dargestellt. Erhöht sich die Streuung, so fällt es immer schwerer zu entscheiden, ob sich die Erwartung, also M(t) geändert hat oder nicht, und welche Zeitpunkte zusammengefasst werden können:

10 Wiederholungen pro Zeitpunkt, diesmal mit größerer Streuung

Unser Algorithmus findet vollautomatisch eine geeignete Einteilung mit der sich dadurch ergebenden Anzahl von Abschnitten. Im vorliegenden Beispiel sind es drei Segmente.

Automatisch gefundene Einteilung in drei Segmente

Der Algorithmus hat dem Zeitpunkt 4 ein eigenes Intervall gegönnt, da die beobachteten Werte (zufällig!) etwas weiter nach oben abwichen.

Wir stellen uns z.B. eine interaktive Anwendung vor, die zur visuellen Unterstützung das zugehörige Intervall hervorhebt:

Mögliche interaktive Anwendung

Hier hatten wir uns auf Zeitreihen konzentriert, deren konstantes Niveau sich von Zeit zu Zeit ändert. Was passiert, wenn es auch lineare Trends geben kann? Dazu an dieser Stelle später mehr.

Dienstag, 1. Oktober 2013

Segmentierung Zeitreihe

Veranstaltungs-Tipp

On-Demand-Webinar 29. April 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 7. Mai 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

On-Demand-Webinar 13. Mai 2025 Webinar: Business-Intelligence-Anwendungen mit DeltaMaster Repository verwalten

Das Repository ist die zentrale Komponente zur datenbankgestützten Bereitstellung von DeltaMaster-Anwendungen. Wie Sie hier Benutzergruppen, Rollen, Berechtigungen und Anwendungen verwalten, erfahren [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Forschung Personenverkehr mit Bussen und Bahnen in der DeltaApp

Für den Personenverkehr spielen Busse und Bahnen eine wichtige Rolle. Das Statistische Bundesamt stellt hierzu interessante Daten zur Verfügung [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Bissantz News The BI & Analytics Survey 25: Platz 1 für Bissantz in Selfservice, Mobile BI und zahlreichen weiteren Kriterien

Im BI & Analytics Survey 25 von BARC liegt Bissantz auf Platz eins in den Vergleichsgruppen Selfservice BI, Mobile BI und zahlreichen weiteren [...]

mehr erfahren

Forschung Reisegebiete mit Ankünften und Übernachtungen

Reisegebiete in Deutschland üben sowohl auf inländische als auch auf ausländische Touristen wieder ansteigende Anziehungskraft aus. Wie sieht [...]

mehr erfahren

Vorheriger Artikel

Relevanz: Rangeleien

Nächster Artikel

Empfehlungssysteme: Betonung auf Benotung

Zeitmustererkennung: Wenn das Niveau steigt

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.

Nicolas Bissantz

Diagramme im Management