Sortierung: Matricks

Oft ist es möglich, eine Menge von Objekten durch paarweise definierte Ähnlichkeiten (oder auch Unähnlichkeiten) zu beschreiben, die in einer Matrix dargestellt werden können. Wir präsentieren Ansätze, die Objekte derart zu ordnen, dass die Strukturen klarer hervortreten.

Als mögliche Anwendung ergibt sich beispielsweise die Darstellung des Zusammenhangs von Dimensionen in Gestalt des Kontingenzkoeffizienten, der von DeltaMaster z.B. in der Interdependenzanalyse verwendet wird.

In der Standardansicht geschieht die Darstellung tabellarisch. In der Matrixansicht erscheinen die Dimensionen sowohl in den Zeilen, als auch in den Spalten in der Reihenfolge, wie sie in der Sicht aufgeführt werden. Unabhängigkeit wird durch eine 0, starke Abhängigkeit durch eine 1 ausgedrückt. Wir haben es hier also mit einem Ähnlichkeitsmaß zu tun.

Die tabellarische Anordnung passt zur Anforderung, schnell eine Rangliste der stärksten Zusammenhänge zu erstellen; die graphische Darstellung als Matrix hilft, bei bekannter Reihenfolge der Dimensionen den Wert eines Zusammenhangs schnell nachzuschlagen, bzw. auffällige Werte einfach zu identifizieren.

Die Abhängigkeiten zwischen den 20 Dimensionen

In einem Beispiel mit 20 Dimensionen könnte die Matrix wie in der obigen Abbildung aussehen (klicken Sie auf die Grafik für eine vergrößerte Darstellung!).

Wir möchten nun erreichen, dass wir einfacher erkennen, ob die Dimensionen Cluster bilden, d.h. ob die Dimensionen so gruppiert werden können, dass Dimensionen innerhalb einer Gruppe hohe Abhängigkeiten zeigen, die Zusammenhänge zwischen Dimensionen unterschiedlicher Gruppen jedoch geringer ausgeprägt sind. Diese Gruppen lassen sich in der obigen Darstellung noch nicht mühelos erkennen. Es gäbe nun zwar Möglichkeiten, diese Cluster in Bäumen darzustellen oder Projektionen über Multidimensionale Skalierung zu gewinnen, aber an dieser Stelle möchten wir innerhalb der Matrixdarstellung verbleiben.

Aber auch mit der Restriktion, sich auf Matrixdarstellungen zu beschränken, existieren noch einige Varianten. Allen ist gemein, die Dimensionen so anordnen zu wollen, sodass Dimensionen mit auffälligen Abhängigkeiten eng nebeneinander stehen. Die Anordnung wirkt sich natürlich immer simultan auf Zeilen und Spalten aus. Michael Hahsler und Kurt Hornik haben in ihrem Report (*) einige Algorithmen aufgeführt. Da sie von Unähnlichkeiten ausgehen, müssen die Werte unserer Matrix für die dort genannten Ansätze intern noch transformiert werden, am einfachsten durch f(x)=1-x. In unseren Grafiken werden aber immer die Originalwerte dargestellt.

Die aus einem Hierarchischen Clusterverfahren gewonnene Anordnung erzeugt das folgende Bild. Es ist nun z.B. leicht erkennbar, dass die Dimensionen 18, 7, 3, 1 und 2 einen Cluster bilden, in dem zwischen allen möglichen Paaren hohe Zusammenhänge vorherrschen. Gleichzeitig existiert ein zweiter Cluster mit ebenfalls 5 Dimensionen, der durch die Dimensionen 4 und 5 zusammengehalten wird.

Sortierung mit Hierarchischem Clusterverfahren

Erstaunlicherweise lässt sich die Aufgabe auch als Problem des Handlungsreisenden (TSP: traveling salesman problem) darstellen: Jede Dimension stellt einen “Ort” dar, und wir suchen eine möglichst kurze “Reise”, die jede Dimension einmal besucht, wobei “Entfernungen” zwischen Dimensionen umso größer werden, je unähnlicher sich die Dimensionen sind. Wir benutzen dazu ein indirekt abgeleitetes Maß, das nicht die direkt aus der Matrix ablesbaren Werte benutzt, sondern auf den jeweiligen Abhängigkeiten gegenüber den restlichen Dimensionen aufbaut.

Sortierung mit TSP-Ansatz mit indirektem Maß

Grundsätzlich ergibt sich eine ähnliche Struktur wie mit der ersten Methode, mit den identischen zwei Hauptclustern. Wie sieht es bei einer größeren Anzahl von Dimensionen aus? Bei folgendem Beispiel sind die 85 Dimensionen in der Ausgangssituation bunt gemischt:

Original mit zufälliger Anordnung

Auch hier wird die Struktur durch die optimierte Anordnung der Dimensionen deutlich sichtbar:

Optimierte Anordnung der Dimensionen mittels TSP-Ansatzes

Auffällig sind hier beispielsweise der Hauptcluster, der etwa die Hälfte der Dimensionen beinhaltet, und die vielen kleinen Cluster mit jeweils zwei bis drei Elementen. Weiterhin sind einige mittelgroße Cluster mit etwa vier bis neun Elementen erkennbar. Auch die einzelnen versprengten Pixel fallen nun auf, und die jetzt wahrnehmbaren “Linien” sind ebenfalls einen zweiten Blick wert.

(*): Michael Hahsler, Kurt Hornik, “Dissimilarity Plots: A Visual Exploration Tool for Partitional Clustering”, Department of Statistics and Mathematics, WU Wirtschaftsuniversität Wien, Research Report Series Report 89, September

Donnerstag, 1. August 2013

Clustern Segmentierung Sortierung Traveling Salesman Problem

Veranstaltungs-Tipp

On-Demand-Webinar 29. April 2025 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 7. Mai 2025 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

On-Demand-Webinar 13. Mai 2025 Webinar: Business-Intelligence-Anwendungen mit DeltaMaster Repository verwalten

Das Repository ist die zentrale Komponente zur datenbankgestützten Bereitstellung von DeltaMaster-Anwendungen. Wie Sie hier Benutzergruppen, Rollen, Berechtigungen und Anwendungen verwalten, erfahren [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Kaltmieten in Deutschland

Kaltmieten bzw. Mieten im Allgemeinen sind in den letzten Jahren stetig gestiegen und stellen für viele Mieter den größten Posten der monatlichen [...]

mehr erfahren

Forschung Achsenelemente als Filter an Zielbericht zuweisen

Achsenelemente können mit dem neuesten Release von DeltaMaster in ihrer Gesamtheit als Filter an einen Zielbericht zugewiesen werden. Wir erklären [...]

mehr erfahren

Forschung Leistungsausgaben der gesetzlichen Krankenversicherung

Die Leistungsausgaben der gesetzlichen Krankenkassen steigen von Jahr zu Jahr. Als Folge haben im Januar 2025 etliche Krankenkassen erneut die [...]

mehr erfahren

Forschung Analyse von Verteilungen

Die Beschreibung von Verteilungen geht oft über die Angabe von Mittelwert und Standardabweichung hinaus. Wir erläutern, was sich bei den hierfür [...]

mehr erfahren

Forschung Personenverkehr mit Bussen und Bahnen in der DeltaApp

Für den Personenverkehr spielen Busse und Bahnen eine wichtige Rolle. Das Statistische Bundesamt stellt hierzu interessante Daten zur Verfügung [...]

mehr erfahren

Data Warehousing Unternehmensplanung und -konsolidierung auf Basis der Bissantz ERP Solutions

Dieser Beitrag erläutert, wie sich Prozesse der integrierten Unternehmensplanung und der Unternehmenskonsolidierung strukturiert gestalten [...]

mehr erfahren

Data Warehousing Partitionierung von Bewegungsdaten

Die Aktualisierung von Bewegungsdaten nimmt während der täglichen Aufbereitung einer SQL-Datenbank in der Regel den Großteil der benötigten [...]

mehr erfahren

Data Warehousing Arbeitstagkalender

Zur Berechnung von Kennzahlen, die von der genauen Anzahl der Arbeitstage abhängen, ist es notwendig, diese im Modell korrekt abzubilden. Die [...]

mehr erfahren

Bissantz News The BI & Analytics Survey 25: Platz 1 für Bissantz in Selfservice, Mobile BI und zahlreichen weiteren Kriterien

Im BI & Analytics Survey 25 von BARC liegt Bissantz auf Platz eins in den Vergleichsgruppen Selfservice BI, Mobile BI und zahlreichen weiteren [...]

mehr erfahren

Forschung Reisegebiete mit Ankünften und Übernachtungen

Reisegebiete in Deutschland üben sowohl auf inländische als auch auf ausländische Touristen wieder ansteigende Anziehungskraft aus. Wie sieht [...]

mehr erfahren

Vorheriger Artikel

Relevanz: Den Zufall zu Fall bringen

Nächster Artikel

Relevanz: Rangeleien

Sortierung: Matricks

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.

Nicolas Bissantz

Diagramme im Management