Clustern: Der Mix macht's

Um in einer Menge mit vielen Elementen den Überblick behalten zu können, ist eine Zerlegung in eine überschaubare Anzahl von Segmenten notwendig. Oft liegen aber Label oder Kriterien, die über die Gruppenzugehörigkeit entscheiden, noch gar nicht vor – dann hilft die Clusteranalyse. Wenn sich Gruppen überlagern können, stellt die Zuweisung eines Elements zu genau einem Cluster nicht die optimale Lösung dar.

Werden in Lehrbüchern Beispiele für klassische Clusteranalysen benötigt, werden aus didaktischen Gründen gerne Daten verwendet, für die auch der ungeübte Anwender die Gruppen sofort erkennt. Seien beispielsweise pro Element der Menge zwei verschiedene Größen x und y gemessen worden. Die folgende Grafik zeigt im oberen Teil die erhaltenen Messwertpaare (x,y) und im unteren Teil die Cluster, die der K-Means-Algorithmus gefunden hat.

Clusterproblem mit relativ offensichtlichen drei Segmenten

Die gefundene Segmentierung wirkt angemessen. Über die Zuordnungen der Punkte im Niemandsland zwischen den Hauptwolken kann jedoch gestritten werden, wie beispielsweise im Falle der Dreiergruppe (1x Blau, 2x Grün), die möglicherweise auch der roten Gruppe hätte zugewiesen werden können.

Es gibt nun Clusteralgorithmen, die nicht die eindeutige Zuordnung eines Elements zu genau einem Segment verlangen, sondern die Zugehörigkeit durch Gewichte ausdrücken. Diese Gewichte addieren sich pro Element auf 1 auf. Wir stellen nun Gauß’sche Mischmodelle (auch bekannt als Gaussian mixture models) vor. Bei der Anwendung eines solchen Modells wird angenommen, dass die gegebenen Daten in einem zweistufigen Prozess generiert worden sind: Zunächst wird aus einer Menge von k mehrdimensionalen Normalverteilungen eine zufällig ausgewählt und dann wird mit dieser Normalverteilung eine Zufallszahl (bzw. ein Zufallsvektor) erzeugt.

Anpassen eines Modells bedeutet hier die Festlegung des Wahrscheinlichkeitsvektors, der die Auswahl der Normalverteilungen steuert und die simultane Festlegung der beteiligten Normalverteilungen durch Angabe der Erwartungswertvektoren und der Kovarianzmatrizen. Es wird somit direkt die Dichte der Beobachtungen modelliert. Zum Glück existiert der leistungsfähige Expectation-Maximization-Algorithmus (EM-Algorithmus), der die Optimierung der Parameter übernimmt.

Wird dieser Algorithmus beim gegebenen Datensatz eingesetzt, so ergibt sich der folgende Contourplot, der ausgewählte Höhenlinien der angepassten Dichte zeigt. Die Zahl gibt jeweils die Wahrscheinlichkeit an, mit der die zugehörige Normalverteilung ausgewählt wird:

Wahrscheinlichkeiten und Höhenlinien (rot: 0.001, grün: 0.002, blau: 0.003) der angepassten Dichte

Die angezeigten Wahrscheinlichkeiten machen deutlich, dass der rechte Cluster ca. 50 Prozent der Beobachtungen stellt – eine Tatsache, die allein durch Betrachtung der Punktwolken nicht erkennbar ist. Die Dichte kann hier auch direkt in einer 3D-Darstellung gezeigt werden:

Darstellung der Dichte des Gauß’schen Mischmodells

Die beitragenden Normalverteilungen sind in diesem Fall noch deutlich erkennbar und überlappen sich eher in ihren Ausläufern. Es kann aber durchaus Konstellationen geben, bei denen sich die Normalverteilungen gegenseitig durchdringen.

Die Verwendung eines Misch-Modells bietet nun darüberhinaus die Möglichkeit, „Reverse Engineering“ zu betreiben. Für einen beliebigen Punkt (x,y) lässt sich über das angepasste Modell mittels der Anwendung des Bayes-Theorems die Wahrscheinlichkeit berechnen, dass eine ausgewählte der drei Normalverteilungen für die Generierung dieses Punktes verantwortlich gemacht werden kann. In der folgenden Grafik sind diejenigen Fälle schwarz eingefärbt, bei denen die maximale der drei Wahrscheinlichkeiten unterhalb von 90% bleibt. Bis auf diese fünf Punkte, zu denen auch die oben bereits erwähnte Dreiergruppe C, D und E gehört, können alle Beobachtungen relativ eindeutig einer Gruppe zugeordnet werden, die meisten (955 von 1000) sogar mit einer maximalen Wahrscheinlichkeit von mehr als 99.9%.

Unklare Fälle sind schwarz markiert.

Für diese fünf Punkte lauten die Wahrscheinlichkeiten der Gruppenzugehörigkeiten folgendermaßen:

Punkt	Blau	Grün	Rot
A	0.36	0.64	0.00
B	0.45	0.55	0.00
C	0.53	0.00	0.47
D	0.45	0.00	0.55
E	0.27	0.00	0.73

Wahrscheinlichkeiten für die Gruppenzugehörigkeiten

Wie auch schon die Grafik vermittelt, geht es bei den Punkten A und B um einen Zweikampf des blauen und des grünen Clusters und bei den Punkten C-E um die Entscheidung zwischen Blau und Rot; der K-Means-Algorithmus hatte diese drei Punkte noch zwischen Blau und Grün aufgeteilt.

Bei A und B neigt sich die Waage eher zu Grün, auch weil die zugehörige Wahrscheinlichkeit dieser Gruppe mit 0.285 größer ist als die 0.204 der blauen Gruppe. C wird eher der blauen, D und E eher der roten Gruppe zugerechnet. Die Entscheidungen bei B, C und D fallen knapp aus, wie die Wahrscheinlichkeiten nahe bei 0.5 vermitteln.

Die gegebenen Werte sind gut interpretierbar, wenn als sicher angenommen werden kann, dass eine der beteiligten Normalverteilungen für die Generierung zuständig war. Es könnte jedoch auch noch sein, dass Ausreißer vorliegen. Diese können an einem geringen Wert der Dichten aller beteiligten Normalverteilungen erkannt werden.

Mittwoch, 1. Oktober 2014

Gruppierung Clustern Gaussian Mixture Model

Veranstaltungs-Tipp

Meet the Experts 7. November 2025 Webinar: ERP Solutions für SAP

Das Management hat hohe Erwartungen an Business Intelligence: glasklar, verbindlich, schnell und einfach soll es sein. Die Bissantz ERP Solutions bieten eine schnelle und einfache Lösung, Ihre Daten [...]

Anmeldung

On-Demand-Webinar 11. November 2025 Webinar: Projekterfolg mit Bissantz

Ob Planung, Analyse oder Reporting: Bissantz-Projekte funktionieren! In diesem Webinar zeigen wir, wie wir von Bissantz in unseren Projekten arbeiten, worauf es ankommt – und was Unternehmen davon haben. [...]

Anmeldung

Meet the Experts 20. November 2025 Webinar: Analyse, Planung und Reporting

In diesem Webinar zeigen wir Ihnen, wie Analyse, Planung und Reporting mit Bissantz dafür sorgen, Ihr Unternehmen auf Erfolgskurs zu halten.

Anmeldung

In diesem Webinar zeigen wir Ihnen, wie Analyse, Planung und Reporting mit Bissantz dafür sorgen, Ihr Unternehmen auf Erfolgskurs zu halten.

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Erwerbstätigkeit, Löhne und Arbeitsstunden

Erwerbstätigkeit, Löhne und Gehälter sowie Arbeitsstunden reagieren auf Konjunkturschwankungen. Wodurch sich die einzelnen Wirtschaftsbereiche [...]

mehr erfahren

Forschung Navigationsebene per Schaltfläche wechseln

Das Navigieren in der Grafischen Tabelle ermöglicht es in DeltaMaster, auf intuitive Weise auffällige Elemente und Elementkombinationen mit [...]

mehr erfahren

Forschung Kinobesuche in Deutschland

Kinobesuche nahmen während der Jahre der Corona-Pandemie drastisch ab. Was passierte in den folgenden Jahren - gab es eine Erholung bei den [...]

mehr erfahren

Forschung Weinmost - Erntemengen und Erträge pro Hektar

Weinmost bildet die Grundlage für die in Deutschland kulturrelevanten Rot- und Weißweine. Wir nutzen DeltaMaster 6, um Auffälligkeiten bei [...]

mehr erfahren

Forschung Bundesliga-Tabelle 2024/25

Die Bundesliga-Tabelle nach Abschluss der Saison 2024/25 zeigt das altvertraute Bild: Der FC Bayern München liegt vorn! Was steckt wirklich [...]

mehr erfahren

Produkt Mehr Klarheit, mehr Kontrolle: Zeilengenaue Zugriffssteuerung neu gedacht

Datensicherheit darf nicht kompliziert sein. Mit zeilenbasierter Zugriffsteuerung für Ihre Planungslösung schaffen Sie klare Sichten für [...]

mehr erfahren

Produkt Automatische Währungsumrechnung in der Integrierten Unternehmensplanung

Internationale Planung braucht Einheitlichkeit: Mit einer automatischen Umrechnung verschiedener Währungen sorgt die Integrierte Unternehmensplanung [...]

mehr erfahren

Produkt Mehr Transparenz und Kontrolle: Personalplanung innerhalb der Integrierten Unternehmensplanung

Personalkosten sind in der Unternehmensführung entscheidend für viele Budgets. Deshalb ermöglicht die Integrierte Unternehmensplanung von [...]

mehr erfahren

Partner SAP-Daten flexibel nutzen: Webinar mit Theobald und Bissantz

SAP-Daten gelten häufig als schwer zugänglich. In unserem gemeinsamen Webinar mit Theobald Software zeigten Christian Grund (Lead Consultant [...]

mehr erfahren

Produkt Top-down-Planung mit Bissantz: Automatische Verteilungslogik ohne Aufwand

Bissantz bietet eine vollautomatisierte Top-down-Logik innerhalb der Integrierten Planung in DeltaMaster. Planwerte werden proportional verteilt [...]

mehr erfahren

Vorheriger Artikel

Visualisierung: Profil zeigen!

Nächster Artikel

Neuronale Netze: Mehr als eine Masche

Clustern: Der Mix macht's

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Nicolas Bissantz

Diagramme im Management