Liebe Datenanalysten,
hätten Sie gedacht, dass man mit der Warenkorbanalyse nicht nur Warenkörbe analysiert? Der Grundgedanke solcher Verfahren hat ihnen zwar speziell im Handelssektor einige Popularität beschert, er lässt sich aber auch auf ganz andere Branchen und Unternehmensbereiche übertragen. Allgemeiner spricht man von Assoziationsanalysen und meint damit Ansätze aus dem Data Mining, die automatisch Abhängigkeiten zwischen Merkmalen identifizieren und bewerten.
Dennoch ist die Metapher des Warenkorbs mitunter durchaus hilfreich: der Korb als eine zusammengehörende Menge und die im Korb liegenden Artikel als die Eigenschaften, deren gemeinsames Auftreten oder Vorkommen man erforschen möchte. In diesem Sinne assoziieren wir „Warenkorb“ also eher mit einem Merkmalsbündel und nicht unbedingt mit einem wahren Korb oder mit Korbwaren…Mit DeltaMaster können Sie Assoziationsanalysen besonders einfach nutzen, denn das entsprechende Modul ist vollständig in die Suite integriert. In den vorliegenden clicks! möchten wir Ihnen einen kleinen Überblick über die Assoziationsanalyse geben und Ihren Blick für mögliche Anwendungsfälle schärfen.
Herzliche Grüße
Ihr Team von Bissantz & Company
Die wohl bekannteste Spielart von Assoziationsanalysen findet sich im Handel: Welche Produkte erwirbt der Kunde zusammen in einem Kaufakt und welche nicht? Derlei komplementäre oder substitutive Beziehungen spürt die Warenkorbanalyse auf. Das Assoziationsanalyse-Modul in DeltaMaster ist aber nicht auf dieses eine Anwendungsszenario beschränkt, sondern eignet sich ganz allgemein immer dann, wenn Sie wissen möchten, ob manche Dinge systematisch im Verbund mit anderen geschehen, ob es Abhängigkeiten oder Wechselbeziehungen zwischen den Merkmalen Ihrer Analyseobjekte gibt, in welche Richtung sie wirken und wie stark.
Weitere Beispiele für Verbundeffekte, die man mit der Assoziationsanalyse untersuchen könnte, sind etwa
- die Ausstattungswünsche von PKW-Käufern oder die Hardware-Konfiguration von ausgelieferten Rechnern im Vertriebscontrolling,
- technische Merkmale, Problembeschreibungen und Fehlerursachen im Qualitätscontrolling sowie im Kundendienst,
- Symptome, Diagnosen und Therapien in der Medizin,
- soziodemografische Merkmale und Leistungsfälle in der Versicherungswirtschaft
und vieles mehr.
Als gedankliche Hinführung zu der Assoziationsanalyse dienen uns hier die Basisverfahren Rangfolge und PowerSearch.
Bei der Rangfolge sortiert DeltaMaster nach genau einem Kriterium, in genau einer Dimension, auf genau einer Ebene. Im Handel beispielsweise könnte man damit im Nu eine typische „Renner-Penner-Liste“ erstellen, indem man obere und untere Objekte für die Absatzmenge und für die Produktdimension auf der Ebene der Einzelprodukte anzeigt.
Auch PowerSearch sucht die größten bzw. kleinsten Ausprägungen eines Analysewerts, aber über verschiedene Dimensionen und Ebenen hinweg. DeltaMaster kombiniert also die Dimensionen und Ebenen des gesamten Modells und fördert die bedeutendsten Werttreiber zu Tage. Man würde dann etwa leicht erkennen, wenn es Großkunden gibt, mit denen man einen höheren Umsatz erzielt als in einer ganzen Vertriebsregion. PowerSearch hat sich als ein guter Einstiegspunkt bewährt, wenn man es mit frischen Daten zu tun hat, denn man erkennt sehr schnell, „wie der Hase läuft“.
Im nächsten Schritt wollen wir nun wissen, wie sich die Merkmale in ihrer Kombination auf unser Geschäft auswirken. Zur Erläuterung benutzen wir einen Auszug aus einem Porsche–Modell.
In der zugrunde liegenden Datenbank sind Verkaufsaufträge über einige Porsche 911 mitsamt der gewählten Ausstattung gespeichert. Wenn man in den Einstellungen von PowerSearch die Analysekomplexität auf vier stellt, so erfährt man durch Regel 16, dass in rund 45 % der Fälle 18-Zoll-Felgen, naturlederne Innenausstattung, Lackierung in violettchromaflair (ein Farbton zwischen Aubergine und Anthrazit) und das Modell Millennium geordert wurde. Ist diese Begebenheit ein Zufall? Oder gibt es systematische Beziehungen zwischen den Merkmalen?
Um dies zu klären, müssen wir in die Assoziationsanalyse wechseln. PowerSearch liefert uns zwar Aussagen über die Häufigkeit des Zusammentreffens von Merkmalen, aber nicht über Abhängigkeiten. Die Assoziationsanalyse ist in Miner-Expert-Versionen unter den Mining-Verfahren zu finden.
Das Ergebnis der Assoziationsanalyse sind Wenn-Dann-Regeln. Zu jeder gefundenen Regel berechnet DeltaMaster statistische Kennzahlen, zum Beispiel die Häufigkeit (auch Support oder Reichweite genannt), die abhängige Wahrscheinlichkeit (Confidence), den so genannten Lift (Improvement), das Relative Risiko, die Regelstärke, Chi-Quadrat-Werte und andere. Diese Maße beschreiben, wie stark der entdeckte Zusammenhang ist, und geben somit Auskunft über die „Qualität“ der Regel.
Gleich in der ersten Zeile finden wir die Merkmalskombination, die uns in PowerSearch aufgefallen war. Als „Wenn“-Kriterium ist das Modell Millennium eingetragen, die anderen drei Ausprägungen stehen im „Dann“-Teil der Regel. Zu lesen ist das etwa so: Wenn in einem Auftrag das Modell Millennium geordert wird, dann kommen auch 18-Zoll-Felgen, die Violettchromaflair-Lackierung und Naturleder hinzu – und zwar immer: Die abhängige Wahrscheinlichkeit liegt bei 100 %. Weil DeltaMaster auch den Umkehrschluss als zutreffend erkannt hat, ist die Regel vom Typ Symmetrisch sicher: Sie gilt immer und in beiden Richtungen.
Zeile fünf verrät: Wenn der Kunde die Farbe Silber bestellt, dann ist es immer ein Carrera-Modell. Der Lift von 3,14 sagt aus, dass unter den silbernen Porsche die Häufigkeit der Carreras 3,14-mal höher ist als insgesamt.
Relationales Modell
Technisch gesehen fragt die Assoziationsanalyse, ob es in einer gegebenen Datenmenge Attributwerte gibt, die oft zusammen auftreten. Die Basisdaten entnimmt DeltaMaster einer relationalen Datenbank – die OLAP-typische Voraggregation in einem Cube bringt für diese Zwecke keine Beschleunigung.
Der Vorteil für Sie ist, dass Sie sehr schnell mit eigenen Experimenten starten können, denn für den Einstieg genügen eine Access-Datenbank, eine bestehende Tabelle im SQL-Server oder Ähnliches als Datenquelle. Auch die Formatierung spielt keine große Rolle.
DeltaMaster benötigt nur wenige Informationen, um Assoziationsanalysen auf relationalen Datenbanken rechnen zu können. Im Wesentlichen sind ihm die Namen von Tabellen und Tabellenspalten bekannt zu machen, welche die Elementmengen (den Warenkorb, sozusagen) und ihre Elemente (die Produkte, die im Korb liegen) beschreiben. Im Dialog Einstellungen wählen Sie aus, in welcher Tabelle und in welchen Spalten DeltaMaster diese Angaben findet. Alle Datenbank-Zeilen, die in den Elementmenge-Feldern identische Werte haben, bilden gemeinsam einen Fall, sodass Sie beliebig große Elementmengen analysieren können.
Wenn Sie neugierig auf die faszinierenden Möglichkeiten der Assoziationsanalyse geworden sind: Ihre Ansprechpartner beraten Sie wie immer sehr gerne!