Wir hatten in Gruppierung: Klassen-Keile einen Algorithmus vorgestellt, der automatisiert Altersstufen zusammenfasst, die sich bspw. bezüglich der Responsequote auf eine Werbeaktion ähnlich verhalten. Wie können wir vorgehen, wenn wir unseren betrachteten Personenkreis vorher segmentiert haben und jedes Segment
eine andere Altersklasseneinteilung generiert?
Bei dem in Gruppierung: Klassen-Keile genannten Algorithmus musste der Anwender nur die gewünschte Anzahl der Klassen vorgeben, um eine automatische Einteilung der Altersstufen in Klassen zu erhalten.
Nehmen wir nun einmal an, dass wir den betrachteten Personenkreis in Segmente aufteilen möchten, etwa nach Geschlecht in Frauen und Männer. Es kann dann passieren, dass sich die Responsequoten zwischen Männern und Frauen in manchen Altersstufen unterscheiden. Aus dieser Tatsache resultiert nun die Möglichkeit, dass in den einzelnen Segmenten jeweils andere Altersstufen zueinander ähnlich sind.
Der Algorithmus funktioniert mit beliebigen Häufigkeiten für alle auftretenden Segment-Altersstufen-Kombinationen. In unserem Beispiel nehmen wir aber der Einfachheit halber an, dass 20 relevante Altersstufen mit jeweils gleichen Anzahlen (100 Frauen und 100 Männer pro Altersstufe) vorliegen. Die folgende Grafik für die Frauen zeigt zusätzlich die Häufigkeiten der positiven Antworten (dunkelblau) und die durch senkrechte Trennlinien dargestellte gefundene Einteilung in 4 Altersklassen mit jeweils ähnlichen Responsequoten (klicken Sie bitte auf die Grafik für eine vergrößerte Darstellung!):
Bei den Männern wird mit der Vorgabe von 4 Klassen die folgende Einteilung erzeugt:
Obwohl der Algorithmus jeweils eine optimale Einteilung sowohl bei den Frauen, als auch bei den Männern gefunden hat, stößt hier dem Anwender die Tatsache sauer auf, dass nun die Responsequoten auf den erzeugten Klassen zwischen Männern und Frauen nicht mehr vergleichbar sind, da die zwei erzeugten Klasseneinteilungen nicht übereinstimmen. Was tun?
Eine auf den ersten Blick plausibel erscheinende Lösung besteht darin, die Vereinigung aller Trennlinien zu nehmen. Die Frauen liefern die rechten Klassengrenzen 6, 9, 13 und 20 und die Männer 4, 8, 10 und 20. Wir nehmen deshalb eine Einteilung mit den rechten Klassengrenzen 4, 6, 8, 9, 10, 13 und 20 und verwenden somit insgesamt 7 Klassen. Für die Frauen sieht das Bild dann folgendermaßen aus:
Hier in unserem Beispiel mit zwei Segmenten mag der Ansatz noch durchgehen, aber bei einer größeren Anzahl von Segmenten kann es passieren, dass so gut wie jede Altersstufe bei mindestens einem der Segmente als Klassengrenze verwendet und somit unser ursprünglicher Wunsch untergraben wird, die große Anzahl der Altersstufen in eine überschaubare Menge von Klassen zu gruppieren.
Wir haben deshalb unseren Algorithmus derart erweitert, dass weiterhin die Anzahl der Klassen vorgegeben werden kann, aber eine Kompromisslösung über alle Segmente gefunden wird. Segmente mit einer höheren Häufigkeit in einer Altersstufe weisen dabei auch einen höheren Einfluss auf das Endergebnis auf.
In unserem Beispiel wird mit der Vorgabe von 4 Klassen die folgende Einteilung erzeugt:
Diese Einteilung mit rechten Klassengrenzen 4, 6, 10 und 20 stimmt weder bei den Frauen, noch bei den Männern mit der vorher ermittelten individuellen optimalen Lösung überein. Sie stellt jedoch einen Kompromiss dar, mit dem beide Geschlechter leben können.
Nun sind die Responsequoten in den erzeugten Klassen wie gewünscht über alle Segmente vergleichbar.